
中文摘要:
近年来,在语音识别的声学建模中,深度神经网络(DNNs)明显优于高斯混合模型。然而,推断阶段巨大的计算量使其难以部署在低功耗的嵌入式模型上。为此,稀疏性和低精度定点量化技术被广泛使用。为降低推理阶段计算量,本文开发了用于语音识别的二进制神经网络,并实现了高速的二值矩阵乘法。在中央处理器(CPU)和图形处理单元(GPU)上,二值矩阵乘法的运行速度是浮点矩阵乘法的5–7倍。针对大规模连续语音识别的声学建模,提出多种二值神经网络及相关模型优化算法。为提高二值模型的精度,探索了从浮点模型到二值模型的知识蒸馏技术。在标准的Switchboard语音识别任务上,该二值神经网络模型比浮点神经网络模型速度提高3–4倍。借助知识蒸馏技术,二值深度神经网络或卷积神经网络相对其浮点神经网络的词错误率增加可以保持在15%以内。若只二值化卷积神经网络的卷积层,词错误率增加几乎可忽略。关键词:
语音识别;二值神经网络;二值矩阵乘法;知识蒸馏;位1计数
作者:
| 钱彦旻,项煦 单位: 上海交通大学,上海市教委智能交互与认知工程重点实验室,中国上海市,200240;上海交通大学智能语音技术实验室,中国上海市,200240 本文引用格式: Yan-min Qian, Xu Xiang, 2019. Binary neural networks for speech recognition. Frontiers of Information Technology & Electronic Engineering, 20(5):701-715.https://doi.org/10.1631/FITEE.1800469 |







关于本刊
Frontiers of Information Technology &Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子1.033。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城,实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。
FITEE官网:http://www.jzus.zju.edu.cn
期刊Springer主页:
http://www.springer.com/computer/journal/11714
在线投稿地址:
http://www.editorialmanager.com/zusc
联系我们
浙大学报英文版是四个英文学术期刊的统称,收录范围涵盖了理工农医各个方向,欢迎向我刊投稿,可关注我刊公众号zdxbywb了解更多信息。


被折叠的 条评论
为什么被折叠?



