从寒假前的博客:语音识别系统原理介绍---从gmm-hmm到dnn-hmm,最近有时间的时候我还是在不断的去理解gmm-hmm这个基准模型。下面我讲从提玩mfcc特征开始说起,希望可以让你有所收获吧。
提完mfcc特征,就相当于剩下一个13维*帧数的矩阵。接下来,就是用混合高斯模型了。怎么用?就用多维的高斯模型区模拟我们得到的矩阵,相当于拟合。相当于我们假设其服从高斯分布,然后我们寻找均值和方差矩阵。可以理解为下图吧。
我们可以看到特征后用一个多维高斯函数去模拟。此外,这里还有个重要的东西,首先我们在训练阶段,我们是知道这段语音所表示的句子吧。我们通过句子,然后分词,然后分成每个音素,在隐马尔科夫(HMM)模型中一般用3-5个上述的单元表示一个音素。简单的理解就是我们每个音素的均值和方差矩阵知道,通过我们的句子我们也知道每个音素间的转移概率矩阵。当然,这些是HMM里的事情。提取特征后的第一步就完成了,简单的说就是为了拟合多维高斯函数。再贴两个图,便于理解: