1 离在线整体方案概述¶
1.1 方案概述¶
随着人们生活水平的提高,对产品的功能要求也越来越高,追求产品的多功能性。传统的离线语音产品仅本地功能控制,无法满足人们的对在线内容的需求。
- 传统家电,功能简单,不支持离线语音控制,也不支持在线内容;
- 纯离线家电,功能单一,仅支持离线语音控制,不支持在线内容;
- 纯在线产品,网络中断或不畅时无法使用。
另一方面,终端客户缺少软硬一体化量产方案:市面大多语音能力供应商多提供单独的语音识别服务,或者单独的硬件模块,多为开发板,能够提供标准的、专业的家电领域服务能力,有过量产的方案很少,大多需要厂商二次开发或者一次性定制开发,后续维护困难,无法很好的适应持续迭代的市场需求。
为了解决以上行业痛点,提升产品竞争力,结合离线语音和在线语音功能的产品方案应运而生。采用离线+在线的语音识别软硬件整体方案,可以很好的解决上述痛点,
即可方便集成到各种产品中,又能为产品带来更多的功能亮点和竞争力。
1.2 方案相关参数优势¶
- 支持远场拾音,可达5~10米;
- 音频数据输出接口可支持I2S,SDIO,UART等多种接口;实现离线+在线应用;
- 支持前端本地降噪,是产品可用于70dB稳态噪声下的语音识别;
- 支持双麦克风及高性能的DOA+Beamforming(波束成形)算法;
- 支持前端本地唤醒,额外可增加50~100条本地命令词识别功能;
- 前端本地唤醒及命令识别率可达95%;
- 可支持单声道和立体声回声消除(AEC),打断效果可达92%以上;
- 支持低功耗,工作功耗小于30mA,低功耗下小于10mA;
- 支持UART或I2C管理接口;如用SDIO,UART音频接口,则管理和音频可共用接口;
- AW7698N/M 是一款高性能的WIFI芯片,且支持SOFTAP功能;
- 方案成熟,具有完整的软件,硬件,结构设计方案。
1.3 适用环境和范围¶
- 产品使用场景为普通家居环境,在安静和中低噪音(<65dB)下可以达到良好的识别率;
- 可用于家居家电、平板终端、智能音箱、车载设备,玩具产品等多种领域或产品,该应用方案可显著提升产品的语音处理效果。
2 语音产品设计流程¶
一个基于我司芯片的标准语音产品设计流程如下图所示:
该流程主要针对我司新用户开发产品使用,包含了前期购买样品Demo进行验证,硬件选型,语音对话逻辑、软硬件方案和结构设计,设计完成后的测试,以及生产测试准备和后续批量采购等步骤。如果是已经熟悉我司方案的老用户,可以直接从中间步骤开始,不用再重复进行Demo测试等工作。
下面针对新用户的开发,对上述流程中的各个步骤逐一描述。
2.1 DEMO测试¶
针对新用户,可以先从我司授权的经销商或直接从我司官网 ☞样品购买 处购买对应的模块或开发板套件,进行识别效果测试,相关的软硬件技术文档可以从本文档中心处获取。用户测试满意后,可以进行硬件选型。
2.2 选型指南¶
用户硬件选型可以直接参考 ☞硬件选型 ,如果用户想快速产品化,推荐直接使用我司已设计好的标准模块;如果现有标准模块无法满足产品的结构需求,也可以选用合适的芯片进行硬件板的设计。
2.3 方案设计¶
选择好合适的芯片或模块后,可根据产品的功能进行下述设计:
如用户为首次进行语音方案开发,建议到 ☞启英泰伦语音AI平台 上获取基于相关芯片的语音产品方案设计Checklist文档,进行逐一检查以确保设计效果。如有技术支持需求请联系我司技术支持人员。
2.4 测试验收¶
产品方案设计完成形成样品后,建议对该样品进行相关的识别测试,相关测试方法和标准可参考 ☞识别效果测试。同时,还建议根据产品质量的要求进行各类硬件测试,如双85测试、静电测试等。为了保证最终的识别效果,还建议进行硬件底噪的测试及产品装机后的整机功能测试。
2.5 生产测试¶
样机测试完成后,会转入后续产线批量生产阶段。我司为产品的批量生产做了完善的解决方案,用户可以参考 ☞生产测试 获取更多信息。用户如需要生产测试的相关技术支持,请联系我司技术人员。
2.6 下单采购¶
用户如果要采购我司产品样品,请点击 ☞样品购买 ,也可以点击 ☞样品和批量采购 获取更多信息。
3 离在线整体方案¶
针对离在线方案,我司提供了CI1103+AW7698+腾讯云小微软硬件一体整体方案,如下:
3.1 方案描述¶
3.1.1 方案特点¶
我司提供了完整的整套离在线方案软硬件,用户可直接使用,降低开发难度。
3.1.2 方案框图¶
3.1.3 硬件模块¶
模组实物如下,主要IC包括CI1103芯片及其配套的Flash、AW7698N芯片及其配套的Flash、DCDC和LDO等。模组的尺寸及器件布局如下图所示:
3.2 离在线SDK代码概述¶
3.2.1 功能描述¶
离在线SDK的Demo有以下功能点:
- 离线语音识别和在线语音识别功能;提供多种云端技能,如通用智能:音乐,故事,闲聊;其他技能:天气,笑话,新闻,财经,百科等;
- 本地音频降噪,语音增强,回声消除,本地识别处理;
- 本地音频数据压缩上传,及在线语音识别,NLP处理;
- 通过通讯口输出本地语音控制协议;
- 支持2.4G WIFI AP配网和2.4G蓝牙配网。
3.2.2 工程目录说明¶
为了方便代码的移植,应用代码都是单独的文件夹,方便SDK更新的时候代码的移植,目录说明如下:
文件目录 | 功能说明 | 备注 |
---|---|---|
..\components\player | 本地和云端音频播放处理 | 本地和云端音频播放处理,包括音频PCM,MP3,M4A解码,以及播放流程处理 |
..\components\alg\aec | 回声消除处理 | |
..\components\alg\beamforming | 本地语音增强 | |
..\components\vad_for_cloud | 云端音频的端点处理 | |
..\components\msg_com | 标准串口协议处理及输出 | |
..\components\cias_ota | 标准的语音固件OTA升级处理 | |
..\sample\internal\sample_media\src | 用户应用处理代码 |
3.2.3 重要变量说明¶
下面是SDK包中的一个重要的头文件,用户可以针对该文件中的变量进行配置,以获得对应的效果。
..\sample\internal\sample_media\src\user_config.h
#define USE_SINGLE_MIC_AEC 1 //单MIC AEC 仅需内部codec即可
#define USE_TWO_MIC_BEAMFORMING 1 //双MIC 语音增强 =1开启,=0关闭
#define USE_CODEC_ES7243E 1 //是否使用7243E,=1是,=0否
#define LOCAL_MULTIPLE_RECOGNITION 0 // 离线多轮,=1 开启 =0 关闭
如用户想了解详细的软件开发过程,请参考以下使用指南 ☞腾讯云小微方案设计指南。
4 产品结构相关注意事项¶
4.1 麦克风结构设计¶
针对麦克风应当注意以下事项:
- 麦克风布局尽量远离噪音源;
- 麦克风放在产品的正面/顶部/底部/的位置避免遮挡,保证拾音最大范围;
- 麦克风处的稳态噪声需小于60dB;
- 麦克风连线较长可选择带屏蔽的线。
4.2 喇叭结构设计¶
- 考虑到音质,喇叭功率不能太小,建议选用1W以上喇叭,带音腔的喇叭效果会更好一点,同时注意硬件板上的功放驱动能力要匹配喇叭型号;
- 喇叭放置位置以美观及结构布局方便为主,但注意尽量避免和麦克风放在同一位置;
- 不带音腔喇叭可以在结构上做一个音腔密封后能增大音量输出。
4.3 其它注意事项¶
- 建议选择-32dB±3dB,信噪比大于70dB以上,性价比高的全向模拟麦克风;
- 特别注意禁止直接点热溶胶用于固定麦克风头;
- 将麦克风完全插入固定孔内部,避免歪斜,拾音孔中心孔对准麦克风的中心;
- 选择符合环保RoHS要求的RTV硅胶,推荐常用的硅胶有703/704/737等,或其它有机材料、单组分室温固化硅胶等;
- 多数硅橡胶灌胶厚度小于3mm以内实温完全固化时间为8 ~ 12小时,灌胶厚度 > 3mm以上完全固化时间更长,可分层多次浇灌,确保完全固化稳定密封;
- 生产工艺可把固定麦克风工序提前,另外特别注意麦克风接线在重力拉扯下,未完全固化前容易导致麦克风扯歪,也需注意将麦克风插线固定好。
5 相关参考资料列表¶
编号 | 参考资料描述 | 获取方式 |
---|---|---|
1 | 标准离在线SDK CI110X_SDK_Combine_Cloud | 请到 ☞启英泰伦语音AI平台 上获取 |
2 | 腾讯云小微SDK Demo | 请到 ☞启英泰伦语音AI平台 上获取 |
3 | 测试固件 | 到 ☞启英泰伦语音AI平台 上获取 |
4 | 我司芯片和模块的选型指南 | 请点击 ☞硬件选型指南 查看 |
5 | 我司芯片硬件设计方法参考 | 请点击 ☞硬件设计参考 查看 |
6 | 麦克风和喇叭器件选型 | 请点击 ☞外围器件兼容列表 查看 |
7 | 产品结构设计 | 请点击 ☞产品结构设计 查看 |
8 | 软件开发方法和标准SDK说明 | 请点击 ☞软件开发 查看各部分内容 |
9 | 产品识别性能测试方法 | 请点击 ☞识别效果测试 查看 |
10 | 生产测试的方法 | 请点击 ☞生产测试 查看 |
用户如遇到使用问题,请到启英泰伦语音AI平台上提交技术工单,或直接联系我司技术人员获取协助。