HMM中的训练问题

最新推荐文章于 2022-07-17 17:49:00 发布

qq_14962179

最新推荐文章于 2022-07-17 17:49:00 发布

阅读量1k

点赞数

分类专栏：语音识别

语音识别专栏收录该内容

35 篇文章 12 订阅

订阅专栏

baum-Welch 最大化似然度准则
CE准则最小化帧错误率
MMI准则最大化O与V的互信息，也即最小化H(W|O)条件熵。最大化句子正确率
MPE准则最小化音素错误率
sMBR 最小化状态错误率

EM算法
EM是HMM训练的基础，主要解决在不完全数据下的最大似然估计问题。原理：EM算法通过迭代，**最大化完全数据对数似然度的期望，**从而间接最大化对不完全数据的对数似然度。
在语音识别中，只能观测到特征序列X为不完全数据，而无法观测到状态S。其中，显变量是X，隐变量是S。目的是最大化不完全数据下的目标函数 $P(X|\Phi)$
贝叶斯公式得：
$p(X,S|\Phi)=p(S|X,\Phi)p((X|\Phi)$
取对数：
$logp(X,S|\Phi)=log[p(S|X,Phi)p((X|\Phi)]$
$logp((X|\Phi)=logp(X,S|\Phi)-logp(S|X,\Phi)$
两边针对X及更新前的旧模型参数 $\Phi ^{(0)}$ 下的因变量S求期望：
$E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}-E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}}$
令：
完全数据：期望为概率加权之后求和。
$Q(\Phi|\Phi^{(0)})=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}=\sum\limits_s {p(S|X,\Phi^{(0)})logp(X,S|\Phi)}$

状态S：
$H(\Phi|\Phi^{(0)})=E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}}\sum\limits_s {p(S|X,\Phi^{(0)})logp(S|X,\Phi)}$
then:
$E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=logp((X|\Phi)]=Q(\Phi|\Phi^{(0)})-H(\Phi|\Phi^{(0)})$
根据杰森不等式：f后加权小于等于加权后f。
$\sum\limits_i {{a_i}} \log {x_i} \le \log \sum\limits_i {{a_i}} {x_i}$
可以推知：
$H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})=\sum\limits_s {p(S|X,{\Phi ^{(0)}})} \log \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}}$
$\le \log \sum\limits_s {p(S|X,{\Phi ^{(0)}})} \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}}=\log \sum\limits_s {p(S|X,\Phi )}=0$
即： $H(\Phi|\Phi^{(0)}) \le H(\Phi^{(0)}|\Phi^{(0)})$
所以：
$logp(X|\Phi)-logp(X|\Phi^{(0)})$
$=[Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})]-[H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})]$
$\ge Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})$
在每一步迭代中，可以间接第只对Q进行优化，在优化Q的同时， $logp(x|\Phi)$ 的优化幅度将比Q的优化幅度更大。Q辅助函数。通过在完全数据下优化Q来实现对不完全数据下 $logp(x|\Phi)$ 的优化。最终通过迭代， $logp(x|\Phi)$ 将随着Q收敛于某局部最优点。
EM算法：首先对目标函数取期望，然后利用杰森不等式对期望后的辅助函数进行实质的最大化。