科大讯飞SDK调研

发福爹

已于 2024-09-02 19:08:34 修改

阅读量1.6k

点赞数 13

文章标签： xcode 语音识别 ios

于 2024-08-27 15:07:02 首次发布

本文链接：https://blog.csdn.net/lizhi1030/article/details/141603134

版权

一、前期准备

1.1 注册与申请

注册讯飞账号：访问科大讯飞开放平台（讯飞开放平台-以语音交互为核心的人工智能开放平台），注册并登录账号。
创建应用：在讯飞开放平台控制台创建新应用，填写相关信息，获取对应的appid。这个appid是后续集成SDK时的重要身份标识。

1.2 SDK下载与解压

下载SDK：从讯飞开放平台下载iOS SDK（SDK下载 - 科大讯飞api接口 - 讯飞开放平台），通常SDK包中会包含lib文件夹（存放SDK类库文件）、doc文件夹（开发文档）和sample文件夹（示例工程）。

解压SDK：将下载的SDK包解压到本地目录。
运行Demo：运行sample文件夹下的Demo项目时，可能会报以下错误：

只需将项目适配到IOS 8.0以上即可：

二、技术集成

2.1 导入SDK与依赖库

添加iflyMSC.framework：将lib文件夹下的iflyMSC.framework添加到iOS项目的工程目录中。
添加依赖库：根据SDK文档，添加必要的iOS系统库，如AVFoundation.framework、SystemConfiguration.framework、CoreTelephony.framework等。

2.2 初始化与配置

初始化SDK：在AppDelegate或应用的启动代码中，使用appid初始化讯飞SDK。objc  NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@", @"YourAppid"];

[IFlySpeechUtility createUtility:initString];

配置识别参数：根据需求配置语音识别参数，如设置识别模式、采样率、语言等。

2.3 语音识别实现

界面提示的语音识别：

导入头文件 #import <iflyMSC/iflyMSC.h>。

创建并初始化IFlyRecognizerView对象，设置代理并添加至视图。

实现代理方法，处理识别结果。

无界面提示的语音识别：

导入头文件 #import <iflyMSC/IFlySpeechRecognizer.h>。

创建并初始化IFlySpeechRecognizer对象，设置代理并配置参数。

实现代理方法，处理识别结果。

三、测试验证

3.1 功能测试

基本功能测试：测试语音识别的基本功能，包括正常语音输入、不同语速和音量的识别效果。
异常处理测试：测试网络异常、设备权限不足等情况下的错误处理机制。

3.2 性能测试

识别准确率：识别准确率较高，尤其在安静环境下表现优秀。对于不同方言和口音的识别能力有待提升，特别是方言较重的地区。
响应时间：识别速度较快，平均响应时间在1秒以内。

3.3 兼容性测试

设备兼容性：在不同型号的iOS设备上测试SDK的兼容性。
iOS版本兼容性：测试SDK在不同iOS版本上的表现。

注：iflyMSC.framework最低支持iOS 8.0。

四、后续优化

4.1 识别效果优化

词表优化：根据应用需求，上传个性化的词表，提高识别准确率。
动态修正：利用讯飞提供的动态修正功能，进一步优化识别结果。
自训练平台：可自行上传语言文本数据集，对语音听写引擎模型进行深度定制。提升垂直领域的语音识别准确率。

4.2 安全性与隐私保护

数据加密：确保传输过程中的数据安全。
隐私权限：在Info.plist中正确配置隐私权限，确保应用合规。

总结报告

5.1 技术实现：

SDK的集成过程主要包括：注册账号并获取APPID、下载SDK和阅读文档、集成SDK、配置项目、初始化服务、配置语音识别参数、实现语音识别、处理回调事件等。

5.2 测试结果：

在不同网络环境下（Wi-Fi、4G）进行语音识别测试，识别准确率较高，尤其在安静环境下表现优秀。
识别速度较快，平均响应时间在1秒以内。
对于不同方言和口音的识别能力有待提升，特别是方言较重的地区。
通过测试对比科大讯飞和Siri的语音读写功能，整体看来暂时科大讯飞略胜Siri一筹，但不排除在以后得更新迭代中情况会有所改变。

特性/产品	科大讯飞	Siri
语音识别准确率	高，尤其在普通话和常见方言上，还提供了个性化热词、语言模型自训练平台等多种提升识别准确率的设置	高，但可能受具体使用场景和用户口音影响
语音输入体验	响应速度快，识别准确率高，提供多种输入方式选择	主要作为语音助手使用，语音输入功能相对辅助
应用场景	广泛应用于文字输入场景，如社交软件、浏览器、文档编辑等	主要作为智能语音助手，用于查询、提醒、控制智能家居等
个性化设置	提供丰富的个性化热词、IP白名单等设置	较少个性化设置，主要关注语音交互和任务执行
技术更新	不断优化和更新，提升识别准确率和用户体验	苹果公司持续更新，增强Siri的智能性和交互性

5.3 优化建议：

通过提高识别准确率、优化识别速度和合成效率、简化集成流程、配置参数调优以及提升用户体验等方面的优化措施，可以进一步提升IOS接科大讯飞SDK进行语音读写的性能和用户体验。

5.4 特别注意：

试用服务量500次，新用户礼包50万次（有效期一年），超过限制或高级定制功能需付费，标准如下：

默认语种普通话和英语，新增的识别语种为付费项目，试用到期后需单独购买，价格为：2万/个/年；
支持个性化热词配置，每行一句热词（2000行以内，每行不多于7个字），以回车键隔开。热词保存之后，1-2小时后生效，请谨慎操作。热词仅支持中文，不支持数字和英文及其他小语种。
离线语音听写SDK目前只支持Android不支持IOS