正文字数:1896 阅读时长:2分钟
语音辅助技术使用户能够使用语音命令与他们的设备进行交互,并且依靠准确的语音识别来确保对特定用户的响应。但是在许多实际的使用案例中,这类技术的输入一般由重叠的语音组成,这给许多语音识别算法带来了巨大的挑战。
作者 / Wang Quan
原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html
2018年,我们推出了VoiceFilter系统,该系统利用了谷歌的Voice Match,通过允许用户注册和登记自己的语音,实现与辅助技术的个性化交互。
https://www.youtube.com/watch?v=TSd080akKUY&feature=youtu.be
虽然VoiceFiltr的方法很成功,并且实现了比传统方法更好的信噪比(SDR),但高效的设备上流媒体语音识别需要解决模型大小、CPU、内存限制和电池使用注意事项和延迟最小化等的限制。
在“Voice Filter-lite方面:针对面向设备上语音识别的流媒体目标语音分离”中,我们推出了针对设备上使用的Voice Filter的更新,该更新可以通过利用选定发言