HMM中的训练问题

baum-Welch 最大化似然度准则
CE准则 最小化帧错误率
MMI准则 最大化O与V的互信息,也即最小化H(W|O)条件熵。 最大化句子正确率
MPE准则 最小化音素错误率
sMBR 最小化状态错误率

  1. EM算法
    EM是HMM训练的基础,主要解决在不完全数据下的最大似然估计问题。原理:EM算法通过迭代,**最大化完全数据对数似然度的期望,**从而间接最大化对不完全数据的对数似然度。
    在语音识别中,只能观测到特征序列X为不完全数据,而无法观测到状态S。其中,显变量是X,隐变量是S。目的是最大化不完全数据下的目标函数 P ( X ∣ Φ ) P(X|\Phi) P(XΦ)
    贝叶斯公式得:
    p ( X , S ∣ Φ ) = p ( S ∣ X , Φ ) p ( ( X ∣ Φ ) p(X,S|\Phi)=p(S|X,\Phi)p((X|\Phi) p(X,SΦ)=p(SX,Φ)p((XΦ)
    取对数:
    l o g p ( X , S ∣ Φ ) = l o g [ p ( S ∣ X , P h i ) p ( ( X ∣ Φ ) ] logp(X,S|\Phi)=log[p(S|X,Phi)p((X|\Phi)] logp(X,SΦ)=log[p(SX,Phi)p((XΦ)]
    l o g p ( ( X ∣ Φ ) = l o g p ( X , S ∣ Φ ) − l o g p ( S ∣ X , Φ ) logp((X|\Phi)=logp(X,S|\Phi)-logp(S|X,\Phi) logp((XΦ)=logp(X,SΦ)logp(SX,Φ)
    两边针对X及更新前的旧模型参数 Φ ( 0 ) \Phi ^{(0)} Φ(0)下的因变量S求期望:
    E [ l o g p ( ( X ∣ Φ ) ] S ∣ X , Φ ( 0 ) = E [ l o g p ( X , S ∣ Φ ) ] S ∣ X , Φ ( 0 ) − E [ l o g p ( S ∣ X , P h i ) ] S ∣ X , Φ ( 0 ) E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}-E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}} E[logp((XΦ)]SX,Φ(0)=E[logp(X,SΦ)]SX,Φ(0)E[logp(SX,Phi)]SX,Φ(0)
    令:
    完全数据:期望为概率加权之后求和。
    Q ( Φ ∣ Φ ( 0 ) ) = E [ l o g p ( X , S ∣ Φ ) ] S ∣ X , Φ ( 0 ) = ∑ s p ( S ∣ X , Φ ( 0 ) ) l o g p ( X , S ∣ Φ ) Q(\Phi|\Phi^{(0)})=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}=\sum\limits_s {p(S|X,\Phi^{(0)})logp(X,S|\Phi)} Q(ΦΦ(0))=E[logp(X,SΦ)]SX,Φ(0)=sp(SX,Φ(0))logp(X,SΦ)

状态S:
H ( Φ ∣ Φ ( 0 ) ) = E [ l o g p ( S ∣ X , P h i ) ] S ∣ X , Φ ( 0 ) ∑ s p ( S ∣ X , Φ ( 0 ) ) l o g p ( S ∣ X , Φ ) H(\Phi|\Phi^{(0)})=E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}}\sum\limits_s {p(S|X,\Phi^{(0)})logp(S|X,\Phi)} H(ΦΦ(0))=E[logp(SX,Phi)]SX,Φ(0)sp(SX,Φ(0))logp(SX,Φ)
then:
E [ l o g p ( ( X ∣ Φ ) ] S ∣ X , Φ ( 0 ) = l o g p ( ( X ∣ Φ ) ] = Q ( Φ ∣ Φ ( 0 ) ) − H ( Φ ∣ Φ ( 0 ) ) E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=logp((X|\Phi)]=Q(\Phi|\Phi^{(0)})-H(\Phi|\Phi^{(0)}) E[logp((XΦ)]SX,Φ(0)=logp((XΦ)]=Q(ΦΦ(0))H(ΦΦ(0))
根据杰森不等式:f后加权小于等于加权后f。
∑ i a i log ⁡ x i ≤ log ⁡ ∑ i a i x i \sum\limits_i {{a_i}} \log {x_i} \le \log \sum\limits_i {{a_i}} {x_i} iailogxilogiaixi
可以推知:
H ( Φ ∣ Φ ( 0 ) ) − H ( Φ ( 0 ) ∣ Φ ( 0 ) ) = ∑ s p ( S ∣ X , Φ ( 0 ) ) log ⁡ p ( S ∣ X , Φ ) p ( S ∣ X , Φ ( 0 ) ) H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})=\sum\limits_s {p(S|X,{\Phi ^{(0)}})} \log \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}} H(ΦΦ(0))H(Φ(0)Φ(0))=sp(SX,Φ(0))logp(SX,Φ(0))p(SX,Φ)
≤ log ⁡ ∑ s p ( S ∣ X , Φ ( 0 ) ) p ( S ∣ X , Φ ) p ( S ∣ X , Φ ( 0 ) ) = log ⁡ ∑ s p ( S ∣ X , Φ ) = 0 \le \log \sum\limits_s {p(S|X,{\Phi ^{(0)}})} \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}}=\log \sum\limits_s {p(S|X,\Phi )}=0 logsp(SX,Φ(0))p(SX,Φ(0))p(SX,Φ)=logsp(SX,Φ)=0
即: H ( Φ ∣ Φ ( 0 ) ) ≤ H ( Φ ( 0 ) ∣ Φ ( 0 ) ) H(\Phi|\Phi^{(0)}) \le H(\Phi^{(0)}|\Phi^{(0)}) H(ΦΦ(0))H(Φ(0)Φ(0))
所以:
l o g p ( X ∣ Φ ) − l o g p ( X ∣ Φ ( 0 ) ) logp(X|\Phi)-logp(X|\Phi^{(0)}) logp(XΦ)logp(XΦ(0))
= [ Q ( Φ ∣ Φ ( 0 ) ) − Q ( Φ ( 0 ) ∣ Φ ( 0 ) ) ] − [ H ( Φ ∣ Φ ( 0 ) ) − H ( Φ ( 0 ) ∣ Φ ( 0 ) ) ] =[Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})]-[H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})] =[Q(ΦΦ(0))Q(Φ(0)Φ(0))][H(ΦΦ(0))H(Φ(0)Φ(0))]
≥ Q ( Φ ∣ Φ ( 0 ) ) − Q ( Φ ( 0 ) ∣ Φ ( 0 ) ) \ge Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)}) Q(ΦΦ(0))Q(Φ(0)Φ(0))
在每一步迭代中,可以间接第只对Q进行优化,在优化Q的同时, l o g p ( x ∣ Φ ) logp(x|\Phi) logp(xΦ)的优化幅度将比Q的优化幅度更大。Q辅助函数。通过在完全数据下优化Q来实现对不完全数据下 l o g p ( x ∣ Φ ) logp(x|\Phi) logp(xΦ)的优化。最终通过迭代, l o g p ( x ∣ Φ ) logp(x|\Phi) logp(xΦ)将随着Q收敛于某局部最优点。
EM算法:首先对目标函数取期望,然后利用杰森不等式对期望后的辅助函数进行实质的最大化。

  1. Baum-Welch算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值