最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……
接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:
看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:
1.特征部分:一般在深度学习系统里用Filter bank 作为特征,这个就是在做MFCC时去掉最后二步。在论文里说,这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右 图)。见文章:RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。
2014.8.26更新:为什么采用Filter bank 作为特征?因为dnn模型里不需要来去相关性的操作。所以我们可以跳过dct变换。这个感觉还是跟数学有关。觉得dnn应该可以做这种去相关性的操作。
2014.8.13更新:看到一个图,贴在这里,方便大家理解。