2015年语音识别文献阅读报告

最新推荐文章于 2022-09-15 18:15:46 发布

sprt

最新推荐文章于 2022-09-15 18:15:46 发布

阅读量5.5k

点赞数 1

分类专栏：语音识别文章标签：语音识别综述

本文链接：https://blog.csdn.net/u014437511/article/details/49803639

版权

2015年语音识别文献阅读报告

@sprt

摘要

本文回顾了语音识别技术从开创至今的发展历程，总结了2015年国际上在内容语音识别领域所取得的最新成果和面临的主要问题，并重点关注了深度学习在自动语音识别领域的应用情况。

DL AND ASR

深度学习的框架，尤其是人工神经网络基础上的深度学习，可以追溯到邦彦福岛1980提出一个学习机。1989，Yann LeCun应用标准的反向传播算法的深度神经网络。虽然该算法可以被成功地执行，但这是不实际的。深层神经网络真正的崛起的是由Geoffrey Hinton 2007提出的前置培训方法。这个方法初始化的每层深度神经网络使用受限玻尔兹曼机（RBM）。这种方法的功能是类似的k-均值聚类用于训练高斯混合模型（GMM）[1]。

运用深度神经网络语音识别的思想起源于微软Redmond实验室的Dong Yu 和 Li Deng。对信号与信息处理的深入学习，为深层神经网络的语音识别系统的框架提供了一个详细的解释[2]。深层神经网络的使用和发展之间有着紧密的联系。国内一些公司，如科大讯飞等语音技术几乎在同一时间在中国迅速发展。

2010 年以前，最先进的语音识别系统通常采用基于HMM的高斯模型混合模型（HMM-GMM模型）技术。这些模型采用的特征通常是梅尔频率倒谱系数 (MFCC)。尽管人们开展了许多工作建立模仿人类听觉过程的特征，但我们要强调通过引入深度神经网络 (DNN) 提供习得特征表示这一重要发展。DNN解决了用高斯混合模型进行数据表示的低效问题，能够直接取代高斯混合模型。深度学习还能用于为传统HMM语音识别系统学习强大的判别性特征。该混合系统的优势是，能够直接使用语音识别研究人员几十年来研发的各种语音识别技术。相较于早期的一些工作，DNN和HMM相结合大大减少了错误。在新系统中，DNN的语音类通常由捆绑HMM状态表示—这是一种直接继承了早期语音系统的技术[3]。

最新成果

语音识别系统主要有四部分组成，预处理系统，特征提取系统，声学模型和语言模型。一些文章只用声学模型和语言模型来定义一个语音识别系统，但我认为预处理系统和特征提取的步骤同样重要。

对语音素材进行预处理是语音识别系统中经常采用的措施，但是大多数情况下人们将其视为优化实验结果的辅助措施来采用。近年来，随着语音识别在高精度（90%以上）识别以及鲁棒性上面临瓶颈，开始有越来越多的人将关注点放在优化预处理方式上面。F Gemmeke等人利用耦合词典作为DNN的预处理阶段，对5和15 dB的信噪比之间的不同添加餐厅和机场噪声的语音识别错误率仅为11.9%[4]。

语音识别的特征提取是通过分析频域和倒谱域。传统的方法包括Mel频率倒谱系数（MFCC）和滤波器组。特征提取步骤的目的是模仿人的耳朵一样提取频率成分。深层神经网络在特征提取中起到重要作用。约翰霍普金斯大学语言和语音处理研究中心（CLSP）和芝加哥丰田技术学院（TTIC）应用瓶颈的功能训练方法提高声学特征[5]。Quoc Bao Nguyen等人在DNN基础上使用混合特征进行英文语音识别，错误率比MFCC基线系统降低了33%[6]。Yongbin Y

最低0.47元/天解锁文章

sprt

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
2015年语音识别文献阅读报告

2015年语音识别文献阅读报告@sprt摘要本文回顾了语音识别技术从开创至今的发展历程，总结了2015年国际上在内容语音识别领域所取得的最新成果和面临的主要问题，并重点关注了深度学习在自动语音识别领域的应用情况。DL AND ASR 深度学习的框架，尤其是人工神经网络基础上的深度学习，可以追溯到邦彦福岛1980提出一个学习机。1989，Yann LeCun应用标准
复制链接

扫一扫