视频讲解
AIRMA
语音识别
基于GMM-HMM语音识别系统的流程
关于语音识别的小提示:训练数据是音频外加对应的翻译文本
语音识别模型的输入数据是一帧一帧的mfcc vector。但是对于每一帧的mfcc vector来说,我们并没有对应的音素。我们并不知道哪一帧对应哪个音素,而这个问题也就是语音识别当中的对齐问题。针对这个问题可以从这个推荐视频的244p开始看。
我们现阶段的目标就是训练一个网络,其输入是一帧一帧的mfcc vector,其输出是与相应mfcc vector对应的音素。