语音识别中的CE准则和MMI准则——内含详细参数更新过程

最新推荐文章于 2022-10-02 23:18:49 发布

置顶 John_Jiang-

最新推荐文章于 2022-10-02 23:18:49 发布

阅读量3.2k

点赞数 3

分类专栏：语音识别 chain模型文章标签：语音识别公式推导

本文链接：https://blog.csdn.net/qq_26778411/article/details/89299172

版权

语音识别同时被 2 个专栏收录

4 篇文章 2 订阅

订阅专栏

chain模型

1 篇文章 0 订阅

订阅专栏

CE准则和MMI准则

Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML和DT的常用的准则。而ML和DT训练方法的核心思想分别来自于MLE和MAP。

ML（Maximum Likelihood），即极大似然估计。
DT（Discriminative Training），即鉴别性训练。
MLE(Maximum Likelihood Estimate)，即极大似然估计。
MAP(Maximum A Posteriori Estimation)，即最大后验概率。

回顾语音识别最基本的公式:
$\frac{P(O|W)P(W)}{P(O)}$
其中W为word sequence，O为observe feature.

对语音识别问题应用贝叶斯风险对分类错误风险进行描述,可得参数优化的目标函数。

对于ML来说，其参数优化的目标函数是：
$\hat{\theta}_{ML}=\arg\ \max_{\theta} P_{\theta}(O|W)$

对于DT来说，其参数优化的目标函数是：
$\hat{\theta}_{DT}=\arg\ \max_{\theta}P_{\theta}(W|O)=\arg\ \max_{\theta}\frac{P_{\theta}(O|W)P_(W)}{P_{\theta}(O)}=\arg \ \max_{\theta}\frac{P_{\theta}(O|W)P_(W)}{\sum_{\omega}P_{\theta}(O|\omega)P(\omega)}$
其中, ${\omega}$ 表示组成word sequence的所有可能路径。
注意：实际上这里给出的目标函数为MMI准则的目标函数，因为大部分鉴别性训练的目标函数均源于该目标函数的变形。这里指的“DT目标函数”只是一个广义的概念。

通过对比我们不难发现：对于ML，只需要优化参数 $\theta$ 使得给定训练word sequence得到当前feature的概率最大（也就是声学模型的概率最大）即可。对于DT，则需要一步到位，直接优化参数 $\theta$ 使得当前feature得到word sequence的概率最大。

用通俗的话来理解，ML是针对每一帧进行分类的优化，最小化每一帧的错误率。对于DT，则是直接针对句子进行优化，最大化观察序列分布与标注序列分布之间的相似性，直接减小句子错误率。

1. CE准则

对于分类任务，Cross Entropy准则经常被使用,
$J_{CE}(\theta;S)=\frac{1}{M}\sum_{m=1}^{M}J_{CE}(\theta;o^m,w^m)$
$J_{CE}(\theta;o,w)=-\sum_{i=1}^{C}w_i\log v_i^L$
其中, $M$ 表示训练样本的个数， $\theta$ 表示模型参数， $o^m$ 表示第m个观察向量， $w^m$ 表示相应的输出向量。 $w_i=P_{emp}(i|o)$ 是观察向量 $o$ 属于类 $i$ 的经验概率分布，该分布从训练数据的标注中来（下文会有相关描述）。 $v_i^L=P_{dnn}(i|o)$ 表示由DNN预测得到的观察向量 $o$ 属于类 $i$ 的概率分布。
交叉熵描述了两个概率分布之间的距离，交叉熵越小，两个概率分布越接近。最小化CE准则等价于最小化“经验概率分布”与“DNN估计得到的概率分布”的KL距离。

一般来说，描述“经验概率分布”会使用硬标注，即
$w_i=\begin{cases}1, & \text{观察序列=标注序列} \\[3ex]0, & \text{else}\end{cases}$
故上述的CE准则会退化成为负的对数似然准则（negative log-likelihood,NLL）
$J_{NLL}(\theta;o,w)=-\sum_{i=1}^C\log v_i^L$

2. MMI准则

2.1MMI准则推导

MMI准则（最大互信息量准则），该准则旨在最大化单词序列分布和观察序列分布的互信息。

令 $W$ 表示语音中所含信息的随机变量例如音素、孤立词、词串等， $w$ 为它的实例。令 $O$ 为表示观测序列的随机变量, $o$ 为它的实例。从信息论的观点出发,可以说信息 $W$ 被编码为 $O$ 。在 $O$ 给定的情况下,描述对 $W$ 平均不确定性的度量为条件熵 $H (W ∣ O)$ ,被写为：
$H(W|O)=-\sum_{W,O}p(w,o)\log p(w|o) = -E[\log p(W|O)]$

降低这个不确定度，就可以使解码器在解码时做出更“确信”的决断。

经过一系列的推导（详见声学模型区分性训练及其在自动语音识别中的应用），该训练准则可以等于最小化：
$H(W|O)=-\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|w^m;\theta)P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)P(\omega)}$

最大互信息量准则还可以看作是对训练集中所有训练语料正确模型序列后验概率的最大化,即最大化:
$J_{MMI}=\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|w^m;\theta)P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)P(\omega)}$

其中， $\theta$ 表示模型参数（weights和biases）， $o^m=o_1^m,...,o_t^m,...,o_{T_m}^m$ 表示第m个样本的观察序列， $w^m=w_1^m,...,w_t^m,...,w_{N_m}^m$ 表示第m个样本的单词标注序列。M为训练集样本个数。 ${\omega}$ 表示组成单词序列的所有可能路径。

注意：
（1）为了便于理解，上文并没有引入标注序列 $w^m$ 的状态序列 $s^m$ 。在完整的公式当中，需要将标注序列 $w^m=w_1^m,...,w_t^m,...,w_{N_m}^m$ 拆分成状态序列 $s^m=s_1^m,...,s_t^m,...,s_{T_m}^m$ ，使观察序列的每个值 $o_t^m$ 均与一个状态值 $s_t^m$ 对应。（若建模的单元是音素，标注序列拆分为标注序列就可以理解为将单词序列拆分成为对应的音素序列。状态序列将通过强制对齐获得。）
（2）因为声学模型得到的值和语言模型得到的值之间会存在一定的不适配，还需要一个声学缩放系数 $\kappa$ 使两个模型的比例关系协调。
完整的MMI准则可以表示为：
$J_{MMI}=\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}$

理论上该目标函数的分母应该取遍所有可能的单词序列，在实际中，这个求和运算是被限制在解码得到的lattice上。

2.2 MMI求导

这里将详细的推导如何应用该准则对模型参数 $\theta$ 进行优化。
回顾MMI准则：
$J_{MMI}=\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}$

其中， $\theta$ 表示模型参数（Weights和Biases）， $o^m=o_1^m,...,o_t^m,...,o_{T_m}^m$ 表示第m个样本的观察序列， $w^m=w_1^m,...,w_t^m,...,w_{N_m}^m$ 表示第m个样本的正确标注序列。 $s^m=s_1^m,...,s_t^m,...,s_{T_m}^m$ 为标注序列 $w^m$ 的状态序列。M为训练集样本个数。 ${\omega}$ 表示组成单词序列的所有可能路径。 $\kappa$ 为声学缩放系数。

对上式的导数可以如下计算：
$\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \theta}=\sum_{m=1}^{M}\sum_{t=1}^{T_m}\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L}}\frac{\partial{z_{mt}^L}}{\partial \theta}$

其中， ${{z_{mt}^L}}$ 表示激活函数（例如tanh,softmax等函数）作用前的值。

令第m个音频样本中第t帧的错误信号为：
$e_{mt}^L=\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L}}$
则错误信号的第 $i$ 个元素为：
$e_{mt}^L(i)=\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L(i)}}=\sum_{r}\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \log P(o_t^m|r)}\frac{\partial \log P(o_t^m|r)}{\partial z_{mt}^L(i)}$

这里， $r$ 表示可能的状态（即取值范围为所有的音素）， ${{z_{mt}^L(i)}}$ 表示对第 $i$ 个神经元的激励信号（即未经过激活函数的值）。 $i$ 也代表了某个特定的状态。（因为一个神经元的输出代表了某个特定状态的概率）

将上式拆分成前后两个部分：
（1）第一部分， $\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \log P(o_t^m|r)}$

$s t e p 1$ ，将前文 $J_{MMI}(\theta;o^m,w^m)=\log \frac{P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}$ 带入式子中：
$\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \log P(o_t^m|r)}=\frac{\partial \log \frac{P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}}{\partial \log P(o_t^m|r)} \\[3ex] =\frac{\partial \log P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\partial \log P(o_t^m|r)}-\frac{\partial \log \sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)} \\[3ex] =\kappa \frac{\partial \log P(o^m|s^m;\theta)}{\partial \log P(o_t^m|r)}-\frac{\partial \log\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)}$
$s t e p 2$ ，考虑第一项 $\kappa \frac{\partial \log P(o^m|s^m;\theta)}{\partial \log P(o_t^m|r)}$ ：

由于 $P(o^m|s^m;\theta)=P(o_1^m|s_1^m;\theta)*...*P(o_t^m|s_t^m;\theta)*...P(o_{T_m}^m|s_{T_m}^m;\theta)$ ,所以对于上式来说，只有当 $r=s_t^m$ 时， $\frac{\partial \log P(o^m|s^m;\theta)}{\partial \log P(o_t^m|s_t^m)}=1$ ，故有：

$\kappa \frac{\partial \log P(o^m|s^m;\theta)}{\partial \log P(o_t^m|r)}=\kappa \delta(r=s_t^m)$

$\delta(r=s_t^m)=\begin{cases}1, & r=s_t^m \\[1ex]0, & \text{else}\end{cases}$
$s t e p 3$ ，考虑第二项 $\frac{\partial \log\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)}$ ：
$\frac{\partial \log\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)}=\frac{\partial \log \sum_{\omega} e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}{\partial \sum_{\omega} e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}*\frac{\partial \sum_{\omega} e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}{\partial \log P(o_t^m|r)} \\[3ex] =\frac{1}{\sum_{\omega} e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}* \sum_{\omega}\frac{\partial e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}{\partial \log P(o_t^m|r)} \\[3ex] =\frac{1}{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}*\sum_{\omega}(\frac{\partial e^{\log P(o^m|\omega ;\theta)^\kappa P(\omega)}}{\partial \log P(o^m|\omega ;\theta)^\kappa P(\omega)}*\frac{\partial \log P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)}) \\[3ex] =\frac{1}{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}*\sum_{\omega}(P(o^m|\omega ;\theta)^\kappa P(\omega)*\kappa \frac{ \partial \log P(o^m|\omega;\theta)}{\partial \log P(o_t^m|r)})$
考虑到 $s t e p 2$ 中 $\kappa \frac{\partial \log P(o^m|s^m;\theta)}{\partial \log P(o_t^m|r)}=\kappa \delta(r=s_t^m)$ ，故：
$\frac{\partial \log\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)}{\partial \log P(o_t^m|r)}=\frac{1}{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}*\sum_{\omega}(P(o^m|\omega ;\theta)^\kappa P(\omega)*\kappa \frac{ \partial \log P(o^m|\omega;\theta)}{\partial \log P(o_t^m|r)}) \\[3ex] =\frac{\sum_{\omega}P(o^m|\omega ;\theta)^\kappa P(\omega) * \kappa \delta(r=s_t^m) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)} \\[3ex] =\frac{\sum_{\omega:s_t^m=r} \kappa *P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}$

$s t e p 4$ ，综合前两项：
$\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \log P(o_t^m|r)}=\kappa \delta(r=s_t^m)-\frac{\sum_{\omega:s_t^m=r} \kappa *P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}$

(2)第二部分， $\frac{\partial \log P(o_t^m|r)}{\partial z_{mt}^L(i)}$ :
$\frac{\partial \log P(o_t^m|r)}{\partial z_{mt}^L(i)}=\frac{\partial \log P(r|o_t^m)}{\partial z_{mt}^L(i)}+\frac{\partial \log P(o_t^m)}{\partial z_{mt}^L(i)}-\frac{\partial \log P(r)}{\partial z_{mt}^L(i)} \\[3ex] =\frac{\partial \log P(r|o_t^m)}{\partial z_{mt}^L(i)}$
其中， $P(r|o_t^m)$ 为观察值 $o_t^m$ 生成状态 $r$ 的概率，也就是第 $r$ 个神经元的输出值。 $z_{mt}^L(i)$ 为第 $i$ 个神经元的激励（未经过激活函数）。

(3)合并两个部分：
$e_{mt}^L(i)=\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L(i)}}=\sum_{r}[\kappa \delta(r=s_t^m)-\frac{\sum_{\omega:s_t^m=r} \kappa *P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}]\frac{\partial \log P(r|o_t^m)}{\partial z_{mt}^L(i)}$

又因为只有第i个神经元的激励 $z_{mt}^L(i)$ 会对 观察序列 $o_t^m$ 生成状态i的概率 $P(i|o_t^m)$ ,也就是第i个神经元的输出产生影响，所以只有 $r = i$ 才能使 $\frac{\partial \log P(r|o_t^m)}{\partial z_{mt}^L(i)}\neq0$ ,故：

$e_{mt}^L(i)=\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L(i)}} \\[3ex] =[\kappa \delta(i=s_t^m)-\frac{\sum_{\omega:s_t^m=i} \kappa *P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}]\frac{\partial \log P(i|o_t^m)}{\partial z_{mt}^L(i)} \\[3ex] =\kappa(\delta(i=s_t^m)-\frac{\sum_{\omega:s_t^m=i} P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)})*\frac{\partial \log P(i|o_t^m)}{\partial z_{mt}^L(i)}$

若最后的输出层的激活函数为softmax，则：
$\frac{\partial \log P(i|o_t^m)}{\partial z_{mt}^L(i)}=\frac{\partial \log (\frac{e^{z_{mt}^L(i)}}{\sum_{r}e^{z_{mt}^L}(r)})}{\partial z_{mt}^L(i)}\approx \frac{\partial log(e^{z_{mt}^L(i)})}{\partial z_{mt}^L(i)}=1$

故
$e_{mt}^L(i)=\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L(i)}} \\[3ex] =\kappa(\delta(i=s_t^m)-\frac{\sum_{\omega:s_t^m=i} P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}) \\[3ex] =\kappa(\delta(i=s_t^m)-\gamma_{mt}^{DEN}(i))$

其中 $\gamma_{mt}^{DEN}(r)=\frac{\sum_{\omega:s_t^m=r} P(o^m|\omega ;\theta)^\kappa P(\omega) }{\sum_{\omega} P(o^m|\omega ;\theta)^\kappa P(\omega)}$ ,其表示在帧 $t$ 得到状态 $r$ 的后验概率，可以通过在音频样本上m的分母词图(denominator lattice)上通过前向后向算法得到。

由于我们是使用强制对齐的方法将标注序列 $w^m=w_1^m,...,w_t^m,...,w_{N_m}^m$ 拆分成状态序列 $s^m=s_1^m,...,s_t^m,...,s_{T_m}^m$ ，所以可能会出现非常多种状态序列。为了考虑 $w^m$ 所有可能的参考状态序列，常常使用 $\gamma_{mt}^{NUM}(i)$ 来代替 $\delta(i=s_t^m)$ 。 $\gamma_{mt}^{NUM}(i)$ 表示了帧 $t$ 得到状态 $i$ 的后验概率，可以通过在音频样本上m的分子词图(numerator lattice)上通过前向后向算法得到。

综上所述，

$\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial \theta}=\sum_{m=1}^{M}\sum_{t=1}^{T_m}\frac{\partial J_{MMI}(\theta;o^m,w^m)}{\partial{z_{mt}^L}}\frac{\partial{z_{mt}^L}}{\partial \theta} \\[3ex] =\sum_{m=1}^{M}\sum_{t=1}^{T_m}\sum_{i}\kappa(\gamma_{mt}^{NUM}(i)-\gamma_{mt}^{DEN}(i))\frac{\partial{z_{mt}^L}}{\partial \theta}$

此式子就是使用MMI准则对参数 $\theta$ 进行更新的表达式。

John_Jiang-

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
语音识别中的CE准则和MMI准则——内含详细参数更新过程

1.Chain模型综述kaldi中的chain模型是目前kaldi中成功率最高的模型。它实际上是使用LF-MMI，即 LatticeFree-MMI，详见论文 [Purely sequence-trained neural networks for ASR based on lattice-free MMI].(https://www.danielpovey.com/files/2016_int...
复制链接

扫一扫