没有语音识别的背景,单看kaldi的代码是看不懂的,去kaldi的新手qq群里面问也没人会教的。好在国外还有2门课程可以自学,
1、英国爱丁堡大学的语音识别课程
http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.html
2、美国斯坦福大学的语音识别课程
http://web.stanford.edu/class/cs224s/
另外csdn的一个博主的文章挺全面的
https://blog.csdn.net/quheDiegooo
举个简单的图来总结语音识别的步骤,GMM其实就是将一个frame(25ms长度)的语音做分类,输出是某个音素phone。后续的hmm只处理音素phone,不再处理MFCC的数据了。