全神经设备端语音识别器

谷歌开发者

于 2019-04-16 11:06:32 发布

阅读量828

点赞数 1

本文链接：https://blog.csdn.net/googledevs/article/details/89334557

版权

Google 推出端到端全神经设备端语音识别器，支持 Gboard 语音输入，使用 RNN 变换器技术，实现无网络延迟和离线状态下的高效识别。此模型直接将音频转化为字符输出，提高实时语音转写的准确性和流畅性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文 / Johan Schalkwyk，Google 语音团队研究员

2012 年，研究表明，语音识别技术可借助深度学习显著提升准确度，很多产品因此开始采用这项技术，例如 Google 语音搜索。这是该领域变革的开端：此后，每年都会有新的架构出现，不断提升语音识别质量，其中包括深度神经网络 (DNN)、递归神经网络(RNN)、长短期记忆网络 (LSTM)、卷积网络 (CNN) 等。在此期间，延迟问题仍然是人们关注的焦点，毕竟能够快速响应请求的自动助手会让用户感觉更有帮助。

我们很高兴地宣布推出端到端的全神经设备端语音识别器，为 Gboard 的语音输入功能提供支持。在我们近期的论文《用于移动设备的流式端到端语音识别》中，我们展示了使用 RNN 变换器 (RNN-T) 技术训练的模型。该模型非常紧凑，可放入手机中。这意味着语音识别不再有网络延迟或声音断断续续的问题 — 全新识别器始终可供使用，即使在离线状态下也是如此。该模型在字符级运行，因此只要您开始讲话，模型就会逐个字符地输出单词，就像有人实时打出您讲话的内容一样，完全符合您对键盘听写系统的期望。