语音识别中GMM-HMM的相关知识

最新推荐文章于 2024-09-19 08:26:02 发布

云南省高校数据化运营管理工程研究中心

最新推荐文章于 2024-09-19 08:26:02 发布

阅读量800

点赞数

分类专栏：孙凯文章标签： HMM GMM EM算法语音识别

本文链接：https://blog.csdn.net/m0_37788308/article/details/79139279

版权

本文深入探讨了语音识别中的GMM（高斯混合模型）和HMM（隐马尔科夫模型）的原理。内容涵盖GMM的参数估计过程，特别是EM算法的应用，以及HMM的观测序列生成、基本问题和解法，如前向、后向算法及Viterbi算法。此外，还介绍了Baum-Welch算法在模型学习中的作用。

摘要由CSDN通过智能技术生成

本文讲阐述在语音识别中GMM-HMM的知识。其中包括了对GMM（Gauss Mixture Model）和HMM（Hidden Markov Model）的定义、原理及其算法的介绍。

GMM（高斯混合模型）

设有随机变量X，则混合高斯模型可以用下式表示：

p (x) = \sum k = 1 K π n N (x | μ k, \sum k)

$p\left ( x \right )=\sum_{k=1}^{K}\pi _{n}N\left ( x|\mu _{k} ,\sum _{k}\right )$
其中

N(x|μk),∑k N ( x | μ k ) , ∑ k $N\left ( x|\mu _{k} \right ),\sum _{k}$ 称为高斯混合模型中的第K个分量。且满足：

\sum k = 1 K π k = 1 ， 0 \leq π k \leq 1

$\sum_{k=1}^{K}\pi _{k}=1 ，0\leq \pi _{k}\leq 1$
可以看到

πk π k $\pi _{k}$ 相当于每个分量

N(x|μk,∑k) N ( x | μ k , ∑ k ) $N\left ( x|\mu _{k} ,\sum _{k}\right)$ 的权重。

GMM参数估计过程

GMM的贝叶斯理解

在GMM的定义中， $\pi _{k}$ 是混合系数，表示第K个分布被选中的概率。下面引入一个K维随机变量Z，其中 $z_{k}$ 定义如下：

z k = {10 s e l e c t o t h e r s k, 1 \leq k \leq K

$z_{k}=\left\{\begin{matrix} 1 & select & k\\ 0 & others \end{matrix}\right., 1\leq k\leq K$
记第k个分布被选中的概率为

p(zk=1)=pk p ( z k = 1 ) = p k $p\left ( z_{k} =1\right )=p_{k}$ ，那么第k个分布未被选中的概率为

p(zk=0)=1−pk p ( z k = 0 ) = 1 − p k $p\left ( z_{k} =0\right )=1-p_{k}$ 。因此，有：

∑Kzk=1 ∑ K z k = 1 $\sum _{K}z_{k}=1$ 。假设

zk z k $z_{k}$ 之间是独立同分布的，则z的联合概率分布形式为：

p (z) = p (z 1) p (z 2) . . . p (z k) = \prod k = 1 K p z k k

$p\left ( z \right )=p\left ( z_{1} \right )p\left ( z_{2} \right )...p\left ( z_{k} \right )=\prod_{k=1}^{K}p_{k}^{z_{k}}$
类似的，给定z的一个特定的值，x关于z的条件概率分布是一个高斯分布

p(x|zk=1)=N(x|mk,∑k) p ( x | z k = 1 ) = N ( x | m k , ∑ k ) $p\left ( x|z_{k} =1\right )=N\left ( x|m_{k},\sum _{k} \right )$ ，也可以写成

p (x | z) = \prod k = 1 K N (x | m, \sum k) z k

$p\left ( x|z \right )=\prod_{k=1}^{K}N\left ( x|m,\sum _{k} \right )^{z_{k}}$ 联合概率分布为

p(z)p(x|z) p ( z ) p ( x | z ) $p\left ( z \right )p\left ( x|z \right )$ ，从而x的边缘概率分布可以通过将联合概率分布对所有的z求和的方式得到，即

p (x) = \sum Z p (z) p (x | z) = \sum k = 1 K (\prod k = 1 K (p z k k) N (x | m k, \sum k) z k) = \sum k = 1 K p k N (x | m k, \sum k)

$p\left ( x \right )=\sum _{Z}p\left ( z \right )p\left ( x|z \right )=\sum_{k=1}^{K}\left ( \prod_{k=1}^{K} \left ( p_{k}^{z_{k}} \right )N\left ( x|m_{k} ,\sum _{k}\right )^{z_{k}}\right )=\sum_{k=1}^{K}p_{k}N\left ( x|m_{k} ,\sum _{k}\right )$
根据贝叶斯定理，后验概率可以表示为：

γ (z k) = p (z k = 1 | x) = p (z k = 1) p (x | z k = 1) / \sum j = 1 K p (z j = 1) p (x | z j = 1) = π k N (x | μ k, \sum k) / \sum j = 1 K π j N (x | μ j, \sum j)

$\gamma \left ( z_{k} \right )=p\left ( z_{k}=1|x \right )=p\left ( z_{k} =1\right )p\left ( x|z_{k}=1 \right )/\sum_{j=1}^{K}p\left ( z_{j} =1\right )p\left ( x|z_{j}=1\right ) =\pi _{k}N\left ( x|\mu _{k} ,\sum _{k}\right )/\sum_{j=1}^{K}\pi _{j}N\left ( x|\mu _{j} ,\sum _{j}\right )$

EM 算法估计GMM参数

EM算法分两步，第一步先求出要估计参数的粗略值，第二部使用第一步的值最大似然估计。因此要先求出GMM的似然函数。
假设 $x=\left \{ x_{1} ,x_{2},...,x_{N}\right \}$ ，GMM模型中有三个参数需要估计，分别为 $\pi, \mu, \sum$ 。并且有：

p (x | π, μ, \sum) = \sum k = 1 K π k N (x | μ k, \sum k)

$p\left ( x|\pi ,\mu ,\sum \right )=\sum_{k=1}^{K}\pi _{k}N\left ( x|\mu _{k},\sum _{k} \right )$
为了估计这三个参数，需要分别求解出这三个参数的最大似然函数。先求解

μk μ k $\mu _{k}$ 的最大似然函数。对上式取对数后在对

μk μ k $\mu _{k}$ 求导并令导数为0即得到最大似然函数。

0 = - \sum n = 1 N π k N (x n | μ k, \sum k) \sum k (x n - μ k) / \sum j π k N (x n | μ j, \sum j)

$0=-\sum_{n=1}^{N}\pi _{k}N\left ( x_{n}|\mu _{k} ,\sum _{k}\right )\sum _{k}\left ( x_{n}-\mu _{k} \right )/\sum _{j}\pi _{k}N\left ( x_{n}|\mu _{j} ,\sum _{j}\right )$
注意到上式中分数的一项的形式正好是后验概率的形式。两边同乘

∑−1k ∑ k − 1 $\sum_{k}^{-1}$ ，重新整理可以得到：

μ k = (1 / N k) \sum n = 1 N γ (z n k) x n

$\mu _{k}=\left ( 1/N_{k} \right )\sum_{n=1}^{N}\gamma \left ( z_{nk} \right )x_{n}$ 其中：

Nk=∑Nn=1γ(znk) N k = ∑ n = 1 N γ ( z n k ) $N_{k}=\sum_{n=1}^{N}\gamma \left ( z_{nk} \right )$ 上面两式中，N表示点的数量。

γ(znk) γ ( z n k ) $\gamma \left ( z_{nk} \right )$ 表示点属于聚类k的后验概率。则

Nk N k $N_{k}$ 可以表示属于第k个聚类的点的数量。那么

μk μ k $\mu_{k}$ 表示所有点的加权平均，每个点的权值是

∑Nn=1γ(znk) ∑ n = 1 N γ ( z n k ) $\sum_{n=1}^{N}\gamma \left ( z_{nk} \right )$ ，跟第k个聚类有关。
同理可求

∑k ∑ k $\sum _{k}$ 的最大似然函数，可以得到：

\sum k = (1 / N k) \sum n = 1 N γ (z n k) (x n - μ k) (x n - μ k) T

$\sum _{k}=\left ( 1/N_{k} \right )\sum_{n=1}^{N}\gamma \left ( z_{nk} \right )\left ( x_{n}-\mu _{k} \right )\left ( x_{n}-\mu _{k} \right )^{T}$
最后剩下

πk π k $\pi_{k}$ 的最大似然函数。注意到

πk π k $\pi_{k}$ 有限制条件

∑Kk=1πk=1 ∑ k = 1 K π k = 1 $\sum_{k=1}^{K}\pi _{k}=1$ ，因此我们需要加入拉格朗日因子

l n p (x | π, μ, \sum) + λ (\sum k = 1 K π k - 1)

$lnp\left ( x|\pi ,\mu ,\sum \right )+\lambda \left ( \sum_{k=1}^{K} \pi _{k}-1\right )$
求上式关于

πk π k $\pi_{k}$ 的最大似然函数，得到：

0 = \sum n = 1 N (N (x n | μ k, \sum k) / \sum j π j N (x n | μ j, \sum j)) + λ

$0=\sum_{n=1}^{N}\left ( N\left ( x_{n} |\mu _{k},\sum _{k}\right ) /\sum _{j}\pi _{j}N\left ( x_{n}|\mu _{j},\sum _{j} \right )\right )+\lambda$
上式两边同乘

πk π k $\pi_{k}$ ，可以得到

λ=−N λ = − N $\lambda =-N$ ，进而可以得到

πk π k $\pi_{k}$ 更简洁的表达式：

π k = N k / N

$\pi _{k}=N_{k}/N$
EM算法估计GMM参数化

μk=(1/Nk)∑Nn=1γ(znk)xn μ k = ( 1 / N k ) ∑ n = 1 N γ ( z n k ) x n $\mu _{k}=\left ( 1/N_{k} \right )\sum_{n=1}^{N}\gamma \left ( z_{nk} \right )x_{n}$ ,