baum-Welch 最大化似然度准则
CE准则 最小化帧错误率
MMI准则 最大化O与V的互信息,也即最小化H(W|O)条件熵。 最大化句子正确率
MPE准则 最小化音素错误率
sMBR 最小化状态错误率
- EM算法
EM是HMM训练的基础,主要解决在不完全数据下的最大似然估计问题。原理:EM算法通过迭代,**最大化完全数据对数似然度的期望,**从而间接最大化对不完全数据的对数似然度。
在语音识别中,只能观测到特征序列X为不完全数据,而无法观测到状态S。其中,显变量是X,隐变量是S。目的是最大化不完全数据下的目标函数 P ( X ∣ Φ ) P(X|\Phi) P(X∣Φ)
贝叶斯公式得:
p ( X , S ∣ Φ ) = p ( S ∣ X , Φ ) p ( ( X ∣ Φ ) p(X,S|\Phi)=p(S|X,\Phi)p((X|\Phi) p(X,S∣Φ)=p(S∣X,Φ)p((X∣Φ)
取对数:
l o g p ( X , S ∣ Φ ) = l o g [ p ( S ∣ X , P h i ) p ( ( X ∣ Φ ) ] logp(X,S|\Phi)=log[p(S|X,Phi)p((X|\Phi)] logp(X,S∣Φ)=log[p(S∣X,Phi)p((X∣Φ)]
l o g p ( ( X ∣ Φ ) = l o g p ( X , S ∣ Φ ) − l o g p ( S ∣ X , Φ ) logp((X|\Phi)=logp(X,S|\Phi)-logp(S|X,\Phi) logp((X∣Φ)=logp(X,S∣Φ)−logp(S∣X,Φ)
两边针对X及更新前的旧模型参数 Φ ( 0 ) \Phi ^{(0)} Φ(0)下的因变量S求期望:
E [ l o g p ( ( X ∣ Φ ) ] S ∣ X , Φ ( 0 ) = E [ l o g p ( X , S ∣ Φ ) ] S ∣ X , Φ ( 0 ) − E [ l o g p ( S ∣ X , P h i ) ] S ∣ X , Φ ( 0 ) E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}-E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}} E[logp((X∣Φ)]S∣X,Φ(0)=E[logp(X,S∣Φ)]S∣X,Φ(0)−E[logp(S∣X,Phi)]S∣X,Φ(0)
令:
完全数据:期望为概率加权之后求和。
Q ( Φ ∣ Φ ( 0 ) ) = E [ l o g p ( X , S ∣ Φ ) ] S ∣ X , Φ ( 0 ) = ∑ s p ( S ∣ X , Φ ( 0 ) ) l o g p ( X , S ∣ Φ ) Q(\Phi|\Phi^{(0)})=E[logp(X,S|\Phi)]_{S|X,\Phi^{(0)}}=\sum\limits_s {p(S|X,\Phi^{(0)})logp(X,S|\Phi)} Q(Φ∣Φ(0))=E[logp(X,S∣Φ)]S∣X,Φ(0)=s∑p(S∣X,Φ(0))logp(X,S∣Φ)
状态S:
H
(
Φ
∣
Φ
(
0
)
)
=
E
[
l
o
g
p
(
S
∣
X
,
P
h
i
)
]
S
∣
X
,
Φ
(
0
)
∑
s
p
(
S
∣
X
,
Φ
(
0
)
)
l
o
g
p
(
S
∣
X
,
Φ
)
H(\Phi|\Phi^{(0)})=E[logp(S|X,Phi)]_{S|X,\Phi^{(0)}}\sum\limits_s {p(S|X,\Phi^{(0)})logp(S|X,\Phi)}
H(Φ∣Φ(0))=E[logp(S∣X,Phi)]S∣X,Φ(0)s∑p(S∣X,Φ(0))logp(S∣X,Φ)
then:
E
[
l
o
g
p
(
(
X
∣
Φ
)
]
S
∣
X
,
Φ
(
0
)
=
l
o
g
p
(
(
X
∣
Φ
)
]
=
Q
(
Φ
∣
Φ
(
0
)
)
−
H
(
Φ
∣
Φ
(
0
)
)
E[logp((X|\Phi)]_{S|X,\Phi^{(0)}}=logp((X|\Phi)]=Q(\Phi|\Phi^{(0)})-H(\Phi|\Phi^{(0)})
E[logp((X∣Φ)]S∣X,Φ(0)=logp((X∣Φ)]=Q(Φ∣Φ(0))−H(Φ∣Φ(0))
根据杰森不等式:f后加权小于等于加权后f。
∑
i
a
i
log
x
i
≤
log
∑
i
a
i
x
i
\sum\limits_i {{a_i}} \log {x_i} \le \log \sum\limits_i {{a_i}} {x_i}
i∑ailogxi≤logi∑aixi
可以推知:
H
(
Φ
∣
Φ
(
0
)
)
−
H
(
Φ
(
0
)
∣
Φ
(
0
)
)
=
∑
s
p
(
S
∣
X
,
Φ
(
0
)
)
log
p
(
S
∣
X
,
Φ
)
p
(
S
∣
X
,
Φ
(
0
)
)
H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})=\sum\limits_s {p(S|X,{\Phi ^{(0)}})} \log \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}}
H(Φ∣Φ(0))−H(Φ(0)∣Φ(0))=s∑p(S∣X,Φ(0))logp(S∣X,Φ(0))p(S∣X,Φ)
≤
log
∑
s
p
(
S
∣
X
,
Φ
(
0
)
)
p
(
S
∣
X
,
Φ
)
p
(
S
∣
X
,
Φ
(
0
)
)
=
log
∑
s
p
(
S
∣
X
,
Φ
)
=
0
\le \log \sum\limits_s {p(S|X,{\Phi ^{(0)}})} \frac{{p(S|X,\Phi)}}{{p(S|X,{\Phi ^{(0)})}}}=\log \sum\limits_s {p(S|X,\Phi )}=0
≤logs∑p(S∣X,Φ(0))p(S∣X,Φ(0))p(S∣X,Φ)=logs∑p(S∣X,Φ)=0
即:
H
(
Φ
∣
Φ
(
0
)
)
≤
H
(
Φ
(
0
)
∣
Φ
(
0
)
)
H(\Phi|\Phi^{(0)}) \le H(\Phi^{(0)}|\Phi^{(0)})
H(Φ∣Φ(0))≤H(Φ(0)∣Φ(0))
所以:
l
o
g
p
(
X
∣
Φ
)
−
l
o
g
p
(
X
∣
Φ
(
0
)
)
logp(X|\Phi)-logp(X|\Phi^{(0)})
logp(X∣Φ)−logp(X∣Φ(0))
=
[
Q
(
Φ
∣
Φ
(
0
)
)
−
Q
(
Φ
(
0
)
∣
Φ
(
0
)
)
]
−
[
H
(
Φ
∣
Φ
(
0
)
)
−
H
(
Φ
(
0
)
∣
Φ
(
0
)
)
]
=[Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})]-[H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})]
=[Q(Φ∣Φ(0))−Q(Φ(0)∣Φ(0))]−[H(Φ∣Φ(0))−H(Φ(0)∣Φ(0))]
≥
Q
(
Φ
∣
Φ
(
0
)
)
−
Q
(
Φ
(
0
)
∣
Φ
(
0
)
)
\ge Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})
≥Q(Φ∣Φ(0))−Q(Φ(0)∣Φ(0))
在每一步迭代中,可以间接第只对Q进行优化,在优化Q的同时,
l
o
g
p
(
x
∣
Φ
)
logp(x|\Phi)
logp(x∣Φ)的优化幅度将比Q的优化幅度更大。Q辅助函数。通过在完全数据下优化Q来实现对不完全数据下
l
o
g
p
(
x
∣
Φ
)
logp(x|\Phi)
logp(x∣Φ)的优化。最终通过迭代,
l
o
g
p
(
x
∣
Φ
)
logp(x|\Phi)
logp(x∣Φ)将随着Q收敛于某局部最优点。
EM算法:首先对目标函数取期望,然后利用杰森不等式对期望后的辅助函数进行实质的最大化。
- Baum-Welch算法