语音算法:CE/MMI准则

1. 什么是CE/MMI准则?

  CE/MMI准则:Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML(Maximum Likelihood)和DT(Discriminative Training)的常用的准则。

2. 什么是CE准则?

P ( y / x ) = P ( x , y ) P ( x ) = P ( x / y ) ⋅ P ( y ) P ( x ) P(y/x) = \frac{P(x,y)}{P(x)}\quad=\frac{P(x/y)\cdot P(y)}{P(x)}\quad P(y/x)=P(x)P(x,y)=P(x)P(x/y)P(y)
  x表示输入的语音,y表示输出的文字,根据后验概率公式,可以得到上式。 P(y/x)后验概率,P(x/y)类条件概率,p(y)先验概率。
  因为深度学习基于梯度反传,常数概率对梯度没有贡献,因此先验概率P(y)可以丢弃,此时可以表示为:
P ( y / x ) ≈ P ( x / y ) P ( x ) P(y/x) \approx \frac{P(x/y)}{P(x)}\quad P(y/x)P(x)P(x/y)
  CE准则就是舍弃P(x),此时概率公式可以表示为:
P ( y / x ) ≈ P ( x / y ) P(y/x) \approx {P(x/y)} P(y/x)P(x/y)
  1. 我们这里不讨论为什么这样做,只讨论为什么这样处理是合理的?如果单纯的计算概率二者肯定不相等,但是一般情况下,当语音x,其最大概率可能的文字是y,那么反之也成立(文字y的最大可能发音是x),我们不需要保证等式成立,只要保证二者出现的概率都是最大即可(深度学习最终计算softmax,取最大概率输出)。
  2.上式概率和深度学习的关系? P(x/y)就是Acoustic model。

3. 什么是MMI准则?

  当考虑P(x)时:
P ( y / x ) ≈ P ( x / y ) P ( x ) = P ( x / y ) ∑ P ( x / y i ) P ( y i ) = P ( x / y ) ∑ P ( x / y i ) P(y/x) \approx \frac{P(x/y)}{P(x)}\quad=\frac{P(x/y)}{\sum {P(x/y_i)P(y_i)}}\quad=\frac{P(x/y)}{\sum {P(x/y_i)}}\quad P(y/x)P(x)P(x/y)=P(x/yi)P(yi)P(x/y)=P(x/yi)P(x/y)
  一般取log最大似然估计,则:
l o g ( P ( y / x ) ) ≈ l o g ( P ( x / y ) ) − l o g ∑ P ( x / y i ) log(P(y/x)) \approx log(P(x/y))-log\sum {P(x/y_i)} log(P(y/x))log(P(x/y))logP(x/yi)
  第一项提供正例,第二项提供负例;训练的时候采用正负例训练。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值