说到语音识别,一般都从以下公式开始介绍(转自:https://blog.csdn.net/yutianzuijin/article/details/77621511)
为什么声学模型是这种形式我一直有困惑,因为在实际使用中,现在的声学模型一般都是神经网络,神经网络的输入是声学特征,输出直接就是某个音素或者音节的概率了,和上述对声学模型的描述并不相符。向同事请教后,原来是因为我不明白似然概率和后验概率,生成式模型和判别式模型的区别。以下文章有比较详细的阐述:https://www.cnblogs.com/eniac1946/p/8532753.html
我的理解是,神经网络是判别式模型,直接建模P( c | x)得到后验概率,而GMM择时生成式模型,通过高斯分布估计似然概率,即P( x | c)。
参考:
https://www.cnblogs.com/eniac1946/p/8532753.html
https://blog.csdn.net/yutianzuijin/article/details/77621511