语音识别系统原理介绍-----dnn-hmm

本文介绍了将GMM替换为DNN的语音识别系统DNN-HMM,强调了深度学习模型在模拟语音信号方面的优势。特征部分通常使用Filter bank而不是MFCC,因为DNN模型可以处理去相关性。DNN部分涵盖了各种模型如RBM、DBN、CNN和RNN,并提到了bottleneck feature的研究。HMM部分与GMM-HMM类似。文章还提及了使用深度学习模型从无标签语音数据中学习特征的应用,并提供了相关资源链接和交流群信息。
摘要由CSDN通过智能技术生成

   最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……

   接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:


看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:

1.特征部分:一般在深度学习系统里用Filter bank 作为特征,这个就是在做MFCC时去掉最后二步。在论文里说,这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右 图)。见文章:RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。

2014.8.26更新:为什么采用Filter bank 作为特征?因为dnn模型里不需要来去相关性的操作。所以我们可以跳过dct变换。这个感觉还是跟数学有关。觉得dnn应该可以做这种去相关性的操作。


2014.8.13更新:看到一个图,贴在这里,方便大家理解。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值