最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……
接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:
看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:
1.特征部分:一般在深度学习系统里用Filter bank 作为特征,这个就是在做MFCC时去掉最后二步。在论文里说,这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右 图)。见文章:RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。
此外,有些人在研究其他的特征,最多的就是bottleneck feature.这个现在很多人在研究,寻找一个很多的特征,肯定会使我们最后的识别率得到提高吧。至于这个 bottleneck feature,稍后贴出几篇文章。
2.dnn部分:至于深度学习,相信了解的人都知道:从最初的bp算法,到现在的rbm,dbn,cnn,rnn等等模型。当然,注意的是,语音不在像图像,在做第一个rbm时应该用 grbm。我们应该用连续的就是高斯了来做这个假设。下面还是继续贴图:
这里的大概是以dbn为框架的,其他的就可以以此类推。具体的实现可以参考kaldi里的nnet2这部分,在rm和wsj数据上的。
3.hmm部分:这部分跟gmm-hmm一样。还是弄一个图:
最后,上面的右图就是bottleneck feature的示意图。
就这样,似乎不是很好的去理解吧。大家多实践,多看代码。希望对你有用……
最近一样在看用深度学习模型去学习特征,然后用于分类或者识别吧。只是为了用到语音里,也希望用到毕设里,这里附上一个链接:http://www.liacs.nl/~dmus/api2011.html。主要内容是: to use Deep Belief Networks to learn a feature hierarchy from unlabeled speech data.