语音识别系统原理介绍-----dnn-hmm

最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……

   接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:

看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:

1.特征部分:一般在深度学习系统里用Filter bank 作为特征,这个就是在做MFCC时去掉最后二步。在论文里说,这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右 图)。见文章:RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。

                      此外,有些人在研究其他的特征,最多的就是bottleneck feature.这个现在很多人在研究,寻找一个很多的特征,肯定会使我们最后的识别率得到提高吧。至于这个 bottleneck feature,稍后贴出几篇文章。

                              

2.dnn部分:至于深度学习,相信了解的人都知道:从最初的bp算法,到现在的rbm,dbn,cnn,rnn等等模型。当然,注意的是,语音不在像图像,在做第一个rbm时应该用                        grbm。我们应该用连续的就是高斯了来做这个假设。下面还是继续贴图:



这里的大概是以dbn为框架的,其他的就可以以此类推。具体的实现可以参考kaldi里的nnet2这部分,在rm和wsj数据上的。

3.hmm部分:这部分跟gmm-hmm一样。还是弄一个图:

       


最后,上面的右图就是bottleneck feature的示意图。

就这样,似乎不是很好的去理解吧。大家多实践,多看代码。希望对你有用……

最近一样在看用深度学习模型去学习特征,然后用于分类或者识别吧。只是为了用到语音里,也希望用到毕设里,这里附上一个链接:http://www.liacs.nl/~dmus/api2011.html。主要内容是: to use Deep Belief Networks to learn a feature hierarchy from unlabeled speech data.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值