2015年语音识别文献阅读报告

2015年语音识别文献阅读报告

@sprt

摘要

    本文回顾了语音识别技术从开创至今的发展历程,总结了2015年国际上在内容语音识别领域所取得的最新成果和面临的主要问题,并重点关注了深度学习在自动语音识别领域的应用情况。

DL AND ASR

    深度学习的框架,尤其是人工神经网络基础上的深度学习,可以追溯到邦彦福岛1980提出一个学习机。1989,Yann LeCun应用标准的反向传播算法的深度神经网络。虽然该算法可以被成功地执行,但这是不实际的。深层神经网络真正的崛起的是由Geoffrey Hinton 2007提出的前置培训方法。这个方法初始化的每层深度神经网络使用受限玻尔兹曼机(RBM)。这种方法的功能是类似的k-均值聚类用于训练高斯混合模型(GMM)[1]。

    运用深度神经网络语音识别的思想起源于微软Redmond实验室的Dong Yu 和 Li Deng。对信号与信息处理的深入学习,为深层神经网络的语音识别系统的框架提供了一个详细的解释[2]。深层神经网络的使用和发展之间有着紧密的联系。国内一些公司,如科大讯飞等语音技术几乎在同一时间在中国迅速发展。

    2010 年以前,最先进的语音识别系统通常采用基于HMM的高斯模型混合模型(HMM-GMM模型)技术。这些模型采用的特征通常是梅尔频率倒谱系数 (MFCC)。尽管人们开展了许多工作建立模仿人类听觉过程的特征,但我们要强调通过引入深度神经网络 (DNN) 提供习得特征表示这一重要发展。DNN解决了用高斯混合模型进行数据表示的低效问题,能够直接取代高斯混合模型。深度学习还能用于为传统HMM语音识别系统学习强大的判别性特征。该混合系统的优势是,能够直接使用语音识别研究人员几十年来研发的各种语音识别技术。相较于早期的一些工作,DNN和HMM相结合大大减少了错误。在新系统中,DNN的语音类通常由捆绑HMM状态表示—这是一种直接继承了早期语音系统的技术[3]。

最新成果

    语音识别系统主要有四部分组成,预处理系统,特征提取系统,声学模型和语言模型。一些文章只用声学模型和语言模型来定义一个语音识别系统,但我认为预处理系统和特征提取的步骤同样重要。

 

    对语音素材进行预处理是语音识别系统中经常采用的措施,但是大多数情况下人们将其视为优化实验结果的辅助措施来采用。近年来,随着语音识别在高精度(90%以上)识别以及鲁棒性上面临瓶颈,开始有越来越多的人将关注点放在优化预处理方式上面。F Gemmeke等人利用耦合词典作为DNN的预处理阶段,对5和15 dB的信噪比之间的不同添加餐厅和机场噪声的语音识别错误率仅为11.9%[4]。

 

    语音识别的特征提取是通过分析频域和倒谱域。传统的方法包括Mel频率倒谱系数(MFCC)和滤波器组。特征提取步骤的目的是模仿人的耳朵一样提取频率成分。深层神经网络在特征提取中起到重要作用。约翰霍普金斯大学语言和语音处理研究中心(CLSP)和芝加哥丰田技术学院(TTIC)应用瓶颈的功能训练方法提高声学特征[5]。Quoc Bao Nguyen等人在DNN基础上使用混合特征进行英文语音识别,错误率比MFCC基线系统降低了33%[6]。Yongbin Y

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值