1. 什么是CE/MMI准则?
CE/MMI准则:Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML(Maximum Likelihood)和DT(Discriminative Training)的常用的准则。
2. 什么是CE准则?
P
(
y
/
x
)
=
P
(
x
,
y
)
P
(
x
)
=
P
(
x
/
y
)
⋅
P
(
y
)
P
(
x
)
P(y/x) = \frac{P(x,y)}{P(x)}\quad=\frac{P(x/y)\cdot P(y)}{P(x)}\quad
P(y/x)=P(x)P(x,y)=P(x)P(x/y)⋅P(y)
x表示输入的语音,y表示输出的文字,根据后验概率公式,可以得到上式。 P(y/x)后验概率,P(x/y)类条件概率,p(y)先验概率。
因为深度学习基于梯度反传,常数概率对梯度没有贡献,因此先验概率P(y)可以丢弃,此时可以表示为:
P
(
y
/
x
)
≈
P
(
x
/
y
)
P
(
x
)
P(y/x) \approx \frac{P(x/y)}{P(x)}\quad
P(y/x)≈P(x)P(x/y)
CE准则就是舍弃P(x),此时概率公式可以表示为:
P
(
y
/
x
)
≈
P
(
x
/
y
)
P(y/x) \approx {P(x/y)}
P(y/x)≈P(x/y)
1. 我们这里不讨论为什么这样做,只讨论为什么这样处理是合理的?如果单纯的计算概率二者肯定不相等,但是一般情况下,当语音x,其最大概率可能的文字是y,那么反之也成立(文字y的最大可能发音是x),我们不需要保证等式成立,只要保证二者出现的概率都是最大即可(深度学习最终计算softmax,取最大概率输出)。
2.上式概率和深度学习的关系? P(x/y)就是Acoustic model。
3. 什么是MMI准则?
当考虑P(x)时:
P
(
y
/
x
)
≈
P
(
x
/
y
)
P
(
x
)
=
P
(
x
/
y
)
∑
P
(
x
/
y
i
)
P
(
y
i
)
=
P
(
x
/
y
)
∑
P
(
x
/
y
i
)
P(y/x) \approx \frac{P(x/y)}{P(x)}\quad=\frac{P(x/y)}{\sum {P(x/y_i)P(y_i)}}\quad=\frac{P(x/y)}{\sum {P(x/y_i)}}\quad
P(y/x)≈P(x)P(x/y)=∑P(x/yi)P(yi)P(x/y)=∑P(x/yi)P(x/y)
一般取log最大似然估计,则:
l
o
g
(
P
(
y
/
x
)
)
≈
l
o
g
(
P
(
x
/
y
)
)
−
l
o
g
∑
P
(
x
/
y
i
)
log(P(y/x)) \approx log(P(x/y))-log\sum {P(x/y_i)}
log(P(y/x))≈log(P(x/y))−log∑P(x/yi)
第一项提供正例,第二项提供负例;训练的时候采用正负例训练。