大家好,上期小君给大家分享了语速对语音引擎识别的影响,相信大家对语速对识别的影响有了初步的认识。经过一个多月的调研,小君本期给各位带来了一次新的评测,即科大讯飞,百度,思必驰,云知声四家语音引擎在降噪性能上的差异。
本次评测主要是对比每家语音识别引擎降噪性能,采取将语音文件直接送接口的方式进行测试,接口同样是基于各家公司给广大语音开发爱好者提供的开源开发接口。
测试语音信息详情如下:
• 音频编码格式:wav
• 音频采样率:16000Hz
• 文本字数:每条平均8字左右,共计1586字。
• 音频分类:安静环境下音频、SNR=15环境下音频、SNR=5环境下音频(SNR为信噪比)
• 音频领域:手机基本操作,领域涉及有常用应用,导航,音乐,天气,设置,日期6个领域,共计200条
• 音频信息:北方自然语速,男女比例1:1,共计20人
• 噪音合成:采取噪音合成的方式对纯净音频进行加噪
• 噪音:中文歌曲
展示一下文本样例:
- 导航领域:请帮我绕开从王府井到西单的拥堵地段
- 设置领域:设置每周一早上7点的闹钟
- 手机基本操作领域:发短信给小明
由于本次测试采取的是直接将数据送入识别接口的方式进行,没有类似于终端产品对整个环境的收音模块,所以噪音不能直接以播放的方式进行增加,但咱们还得测试不同信噪比下的数据呢,难不倒小君的,小君有噪音合成工具!可以将选定的噪音数据与语音数