深度学习在语音识别中的声学模型以及语言模型的应用

最新推荐文章于 2024-01-18 02:09:41 发布

weixin_33971205

最新推荐文章于 2024-01-18 02:09:41 发布

阅读量1.1k

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/157717

版权

本文介绍了深度学习在语音识别中的应用，包括声学模型（AM）和语言模型（LM）。声学模型中，FSMN结构因其引入延时结构和Attention机制，表现出优于传统DNN和LSTM的性能。在语言模型方面，RNN与LSTM通过引入长期依赖，解决了Ngram模型的局限性，LSTM在效果和效率上优于RNN。深度学习技术显著提高了语音识别的准确性和速度。

摘要由CSDN通过智能技术生成

过去 3 年，深度学习在各个领域取得较大突破，比如计算机视觉领域的物体识别、场景分类，语音分析等，并且其技术推广和应用的速度超过人们预期,比如 Google 的广告系统已经开始使用深度学习盈利，Twitter 也通过深度学习改善App 图片及视频内容服务体验。那具体何为深度学习呢？深度学习是怎么应用在上述的各个领域呢，下面结合自身在语音识别的若干年经验，谈谈深度学习在语音识别中的具体应用。

0. 背景

“深度学习”的概念在上个世纪便被提出，但Hinton、Lecun等人在2006年发表的论文让“深度学习”重新焕发光彩，并使得相关的学术成果在实际应用中表现良好。它的灵感来自对人脑神经的研究，因此也称为深度神经网络“DNN”。这里的“深度”并非指算法有内涵，而是指神经网络层数多，因此也称为多层结构学习算法（这几种命名不完全对等，具体的差别涉及到学派）。实际中的“深度神经网络”算法与大脑神经结构差别极大，因此深度神经网络被称为端到端的机器学习算法或者多层联结算法或许更好些（联结主义流派的说法）。

基于深度神经网络算法的重大影响工作的出现，是在2012年之后。比如Krizhevsky、Hinton等用深度学习大幅度提高了图片分类的准确率，奠定了图像分类模型“AlexNet”的地位；Dahl等大幅度提升了语音识别的准确率。

声学模型以及语言模型就像人的左右大脑一样,没有他们,语音识别系统就是一个空壳,毫无作用。

1. 深度学习与AM

1.1 深度学习在AM中的应用与现状

传统基于HMM的hybrid框架，例如：GMM-HMM,CD-DNN-HMM依然是工业界应用的主流技术，并且各种训练算法以及工具都很成熟,例HTK,Kaldi,Sphinx,并且在很多工业界都有应用。

目前学术研究的重点逐渐转向End-To-End模型训练。其中比较成熟的训练方法是基于CTC准则的训练。文献报告结果显示[21]，LSTM-CTC模型识别准确度高于HMM-LSTM模型，识别速度更快。

基于Attention机制的End-To-End模型训练成为研究热点[22]，也是Google，Microsoft等目前的研究热点领域。但是目前据文献报告，识别准确度差于LSTM-CTC模型。

CNN技术重新得到重视[19][20]，作为End-To-End中特征提取的重要一环。

1.2 基于FSMN的AM

FSMN[18]，是由科大讯飞提出的一种基于DNN改进型网络结构。在DNN的隐藏层中引入延时结构，将t-N~t-1时刻的隐藏层历史信息作为下一层的输入，从而引入了语音序列的历史信息，同时避免了RNN训练BPTT带来的问题，如：梯度消逝，计算复杂度高等。

图1 FSMN结构

这种结构的设计是来源于Oppenheim的数字信号处理的部分[23]，用无限长的脉冲响应滤波器（IIR）来模拟近似高阶的有限脉冲响应滤波器（FIR）。因为RNN中的Recurrent层可以看作一阶的IIR，它可以精确的被高阶的FIR来近似模拟。在这种全连接的结构的基础上再加上一些记忆单元，就如在FIR中延时单元一样，这样可以在前向计算的时候比纯粹的RNN更加高效并稳定。正因为该记忆单元的存在，它可以将更长的上下文信息压缩为一个固定长度的向量，这样可以使模型能够学到更多前后依赖的重要信息。

图2 Recurrent layer 和 IIR

FSMN另外一点创新的地方在于引入了Attention机制。核心思想在于模仿人类的思考行为，因为人类在思考问题的时候，一般会先考虑他经历过的，或者听过的事，另外聪明的人类也会根据已有的经验来预测未来将要发生的事，结合这两者，作出的决定将更加正确，更加有实效性。因此在FSMN中，也引入了Lookback以及Lookahead思想，但是两者对当前的作用大小是不同的，因此需要计算二者的系数，这个系数就称为Attention Coefficient。具体公式如下：