语音算法：CE/MMI准则

方付平

已于 2022-10-02 23:20:17 修改

阅读量309

点赞数

分类专栏：深度学习机器学习文章标签：算法

于 2022-10-02 23:18:49 首次发布

本文链接：https://blog.csdn.net/qq_37258753/article/details/127147221

版权

深度学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

1. 什么是CE/MMI准则？

CE/MMI准则：Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML(Maximum Likelihood)和DT(Discriminative Training)的常用的准则。

2. 什么是CE准则？

$\frac{P(x,y)}{P(x)}\quad=\frac{P(x/y)\cdot P(y)}{P(x)}\quad$
x表示输入的语音，y表示输出的文字，根据后验概率公式，可以得到上式。 P(y/x)后验概率，P(x/y)类条件概率，p(y)先验概率。
因为深度学习基于梯度反传，常数概率对梯度没有贡献，因此先验概率P(y)可以丢弃，此时可以表示为：
$\approx \frac{P(x/y)}{P(x)}\quad$
CE准则就是舍弃P(x)，此时概率公式可以表示为：
$\approx {P(x/y)}$
1. 我们这里不讨论为什么这样做，只讨论为什么这样处理是合理的？如果单纯的计算概率二者肯定不相等，但是一般情况下，当语音x，其最大概率可能的文字是y，那么反之也成立（文字y的最大可能发音是x），我们不需要保证等式成立，只要保证二者出现的概率都是最大即可（深度学习最终计算softmax，取最大概率输出）。
2.上式概率和深度学习的关系？ P(x/y)就是Acoustic model。

3. 什么是MMI准则？

当考虑P(x)时：
$\approx \frac{P(x/y)}{P(x)}\quad=\frac{P(x/y)}{\sum {P(x/y_i)P(y_i)}}\quad=\frac{P(x/y)}{\sum {P(x/y_i)}}\quad$
一般取log最大似然估计，则：
$\approx log(P(x/y))-log\sum {P(x/y_i)}$
第一项提供正例，第二项提供负例；训练的时候采用正负例训练。