语音助手流程简述图
语音交互系统框架:
一、唤醒
声纹识别唤醒算法原理图:
唤醒方式:
1)传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。
2)One-shot:直接将唤醒词和工作命令一同说出,如"叮咚叮「咚,我想听周杰伦的歌",客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。
3)Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说"导航到科大讯飞",这里将一些高频前缀的说法设置成唤醒词。
语音唤醒的技术要求:
1)唤醒时延短:要求响应时间快,符合日常对话体验;
2)唤醒性能好:高唤醒率,即漏报少;低误唤醒率,即误报少;这两个指标通常是此消彼长;
3)安全性高:声纹识别要准,防止冒认,即非注册声纹的误闯率越低越好;
4)唤醒词:技术上要求,一般最少3个音节;
5)低功耗:由于系统要连续处于检测状态,因此功耗需要足够低;
影响语音唤醒性能的主要因素:
1)距离:距离主要影响麦克风采集到的信号大小,在噪声环境下影响信噪比。近场环境下可能会大音量失真(振幅超过最大量化精度),导致识别不准;远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅。
2)发音:不同人的音色、频率、语速、说话流畅度等都会影响算去比对结果;
3)环境:嘈杂环境下信噪比可能较低,影响有效信号识别;
测试需求清单及标准:
编号 | 描述 | 测试因子 | 标准 |
1 | 唤醒测试 | 唤醒(成功)率 | 安静环境-30cm>95% 低噪环境-30cm>90% 中噪环境-30cm>80% 高噪环境-30cm>70% |
2 | 误闯率 | 安静环境<5% | |
误唤醒率 | T≤1次/48H | ||
唤醒时延 | T<1000ms | ||
ASR识别测试 | ASR字准率 | 必过集=100% 泛化集≥95% |
|
ASR时延 | T<1000ms |
测试因子详解:
1.唤醒率:语音唤醒在本地完成,包括声纹识别和唤醒词识别,由于每个人声音特性的差异及环境的干扰等因素导致输入的数据的差异,并由此可能影响唤醒的成功率。
综上,考察单个及不同用户的整体唤醒率,受语种、人因、相对位置、声学环境的影响;人因的影响因素主要体现在不同人的发音在不同情景下,语速、音色、声频、流畅性等方面存在差异,因此,对于测试样本的采集需要覆盖地域、性别、年龄、语速、流畅性;相对位置主要影响手机采集到的信号大小,信号大小不合适可能会产生明显失真,影响唤醒率;声学环境主要考虑背景噪音的影响;
根据设计规格、《手机智能语音交互测试标准V2.0.0》、《信息技术智能语音交互系统第4部分:移动终端GB/T36464.4-2018》、《中文语音识别系统通用技术规范GB/T21023-2007》,确定各测试因子参数如下表:
序号 | 测试因子 | 具体参数 |
1 | 语种 | 中文普通话 |