ASR 混合高斯模型GMM的理解

最新推荐文章于 2024-02-14 23:03:28 发布

Charles Tu

最新推荐文章于 2024-02-14 23:03:28 发布

阅读量564

点赞数

分类专栏： ASR 文章标签： em

本文链接：https://blog.csdn.net/Tq_bu2/article/details/104365820

版权

ASR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

混合高斯模型（GMM）是使用非常广泛的统计模型，一种非常高调的说法是，混合高斯模型能拟合一切数据。虽然实际还是受到很多限制，比如混合高斯分布数量需要确定等等，不难看出其强大指出。此文包含以下内容：

GMM模型
EM算法

GMM模型

1.1 简单理解GMM

首先讲一讲什么是高斯分布。在自然界数据中有个奇怪的现象：数据量满足一定量后，其统计分布呈现钟型。前人由此分析得到高斯分布。高斯分布的主要参数是数据的平均值 $\mu$ 和方差 $\sigma^2$ ，记作 $N(\mu,\sigma^2)$ 。

从字面上理解，GMM脱胎于高斯分布，简单来说，它是多个高斯分布的混合。GMM的基本思想是，使用多个高斯分布拟合任意曲线。相比高斯分布，GMM引入另一个参数 $\pi_{k}$ ，对应第 $k$ 个高斯分布的系数值，所以混合高斯分布可记作
$\sum_{k=1}^{N} \pi_{k} \cdot N(\mu,\sigma^2)$
其中， $\pi_{k}$ 是数据指向第k个高斯分布的概率。GMM思想主要体现在聚类算法上：聚类算法将数据归类到最大可能的几个集合中，形成几个类。通常，也称这种功能性明显的变量为（隐\潜变量），可理解为数据的隐藏性质。借此，GMM也能用于实现聚类。

GMM模型在处理数据时，先把数据丢到单独一个高斯分布中，接着就是简单的高斯分布问题。假设一组数据符合GMM，那么只需要估计GMM模型三个参数就好。常用的基础算法是EM算法。EM算法的好处是，它特别适合应对隐变量存在时的参数估计，但是需要提前设定好隐变量的数量。

1.2 图解GMM模型

按照之前的叙述，GMM模型是几个高斯分布的组合，示意图如下：
在这里插入图片描述如果把GMM模型的估计分为两步，第一步估计 $\pi_{k}$ 得到数据指向模型的概率，第二部估计第k组高斯分布的参数 $\mu_{k}$ 和 $\sigma_{k}^2$ ，显然第一步是最关键也最为难以理解的部分，即，如何得到数据属于某个高斯分布的概率？

记数据指向第k个模型为事件 $\gamma_{k}$ ，其集合序列为 $\gamma=[\gamma_{1},...,\gamma_{k}]$ 。于是，数据x指向第k个模型的概率为， $P(x|\gamma_{k}=1)=\pi_{k}$ 。当已知某个数据指向哪个高斯分布，即 $\gamma$ 已知，则数据的概率就是高斯分布概率，有
$\pi_{k}=P(x|\gamma_{k}=k) = N(x|\mu_{k},\sigma_{k}^2)$
数据可能出现在每个高斯分布上，于是数据的实际概率为
$=\sum_{k=1}^N \pi_{k} N(x|\mu_{k},\sigma_{k}^2)$
当观察时间序列 $X=[x_{1},....,x_{T}]$ 已知的时候，首要完成的任务是估计模型参数 $(\pi,\mu,\Sigma)$ ，记 $\Sigma=\sigma_{k}^2$ 。使用对数似然估计方法，X的联合概率表示为：
$L(x_{1},...,x_{T};\pi,\mu,\Sigma) = \prod_{i=1}^{T}\sum_{k=1}^N \pi_{k} N(x_{i}|\mu_{k},\sigma_{k}^2)$
取对数能帮助解开累乘符号，但不能再解开每个log里的累加符号，依旧难以求导取0，估计值。所以，以上估计，将使用EM算法求出。

EM算法

2.1 简单理解EM算法

从高斯混合模型参数的求解任务，我们知道，需要实现的任务是估计出每个高斯模型中的 $\mu_{k}$ 和 $\sigma_{k}^2$ 。以上使用对数似然的方法无法估计多类相同参数，而EM算法可以，当然EM算法需已知类的个数。

在估计过程中，EM算法首要解决的问题是，隐变量引入造成最大似然估计中每个log项内，都有累加问题。熟悉似然估计的人知道，估计函数取对数后，如果log内依然存在累加项，很难进一步完成估计。于是，根据Jensen不等式，这个问题得以解决，详细解决过程请继续往下阅读。然后估计过程被分为两个相互递进的过程：E步和M步，分别对应Expectation和Maximization。

E步：估计数据 $x_{i}$ 由属于哪类高斯分布，即估计 $\gamma$ 。估计时固定 $\mu$ 和 $\Sigma$ 为常数， $\pi$ 同样可由高斯分布求出，也固定为常数；
M步：已知数据是由第k类产生，估计第k类参数 $\mu$ 、 $\Sigma$ 和 $\pi$ 。

2.2 详解EM算法

2.2.1 EM的估计方程

上述说道，GMM中直接使用极大似然方法，无法借助对数手段打开所有项。先写一遍方程在此，方便后面对比

前面已经说过，EM算法用于估计带隐变量的参数，GMM里面隐变量是 $\gamma$ ，这里使用一般EM算法介绍中的隐变量符号 $Z$ 。对数似然表示中引入为 $Z$ ，则有
$L(\theta) = log P(X|\theta) =log \sum_{Z} P(X,Z|\theta) \\ =log \sum_{Z} P(Z|\theta)P(X|Z,\theta)$
其中集合 ${X,Z\}$ 称作完备集合，是一个 $\times len(Z)$ 大小的矩阵，即表示X的数据在Z类中的映射。 $\theta$ 表示要估计的参数，GMM任务中代表 $\mu$ 、 $\Sigma$ 和 $\pi$ 。GMM模型里，上式最终变换的含义为， $P(Z|\theta)$ 代表属于哪类高斯分布的概率（隐变量）， $P(X|Z,\theta)$ 代表数据在对应高斯分布上的概率。

目前依旧难以直接估计，需要借助Jensen不等式。设 $\theta'$ 是当前的参数值， $\theta$ 是下个时刻需要估计的参数，取对数表达式的差值为
$L(\theta)-L(\theta') = log\sum_{Z} P(Z|\theta)P(X|Z,\theta)-log P(X|\theta') \\ = log\sum_{Z} P(Z|\theta)P(X|Z,\theta)\times \frac{P(Z|\theta')}{P(Z|\theta')}-log P(X|\theta') \\ = log\sum_{Z} P(Z|\theta')\times \frac{P(Z|\theta)P(X|Z,\theta)}{P(Z|\theta')P(X|\theta')} \\ \geq \sum_{Z} P(Z|\theta') \times log\frac{P(Z|\theta)P(X|Z,\theta)}{P(Z|\theta')P(X|\theta')}$

Jensen不等式(凸函数性质)：
对于任意点集 ${x_{i}\}$ ，若 $\lambda_{i}>0$ ，且 $\sum \lambda_{i}=1$ ，可证明
$f(\sum^{M}_{i=1}\lambda_{i}x_{i}) \leq \sum^{M}_{i=1} \lambda_{i}f(x_{i})$
此处 $\lambda=P(Z|\theta')$ ， $f (x) = l o g (. . .)$

上式变换后有
$L(\theta) \geq L(\theta')+\sum_{Z} P(Z|\theta') \times \log\frac{P(Z|\theta)P(X|Z,\theta)}{P(Z|\theta')P(X|\theta')} \triangleq B(\theta',\theta)$
显然 $B(\theta',\theta)$ 是 $L(\theta)$ 的下限，显然提升 $L(\theta)$ 的下限有助于其逼近最大，再加上当 $\theta=\theta'$ 的时候，有 $L(\theta')=B(\theta',\theta')$ 。通过这个变换过程，问题成功的转变成求以下表达式的极大似然估计：
$\theta = \arg max_{\theta} \sum_{Z} P(Z|\theta') \times \log P(Z|\theta)P(X|Z,\theta)$
其中忽略去了部分 $\theta'$ 相关的 $P(Z|\theta')P(X|\theta')$ 项，可以认为是常数，不影响估计极大过程。

现在解释这样变换的好处。下面给出了极大似然方法估计函数和EM算法估计函数，分别取了对数

$\log L(x_{1},...,x_{T};\pi,\mu,\Sigma) = \sum_{n=1}^{N}\sum_{k=1}^{K} \pi_{k} \log N(x_{n}|\mu_{k},\sigma_{k}^2)$ — EM算法的估计函数

$\log L(x_{1},...,x_{T};\pi,\mu,\Sigma) = \sum_{n=1}^{N} \log \sum_{k=1}^{K} \pi_{k} N(x_{i}|\mu_{k},\sigma_{k}^2)$ — 极大似然的估计函数

两者相比，EM算法的表达式在解开累乘后，log函数内不再有累加符号，累加符号被变换到了log外面，才能顺利实现参数估计。

表达式确定后，接下即可分为E和M步估计参数

2.2.2 E步

计算 $P(Z|\theta')$ ，也是Z的期望。对应GMM问题是，计算后验概率 $P(\gamma|\theta')$ :
$\gamma_{kn} = P(\gamma_{k}|\theta') = \frac{\pi_{k}N(x_{n}|\mu_{k},\Sigma_{k})}{\sum_{j}\pi_{k}N(x_{n}|\mu_{j},\Sigma_{j})}$
其中n指代时间序列，k、j指代第几类。

2.2.3 M步

根据求得的 $P(Z|\theta')$ 和 $\theta'$ 估计参数 $\theta'$ 。对应GMM问题是，根据估计到的后验概率 $\gamma_{kn}$ 和前一时刻参数 $\mu'$ 、 $\Sigma'$ 和 $\pi'$ ，估计下一时刻参数 $\mu$ 、 $\Sigma$ 和 $\pi$ 。
$\mu_k = \frac{1}{N_{k}} \sum_{n=1}^{N} \gamma_{kn}x_{n}$
$\Sigma_{k} = \frac{1}{N_{k}} \sum_{n=1}^{N} \gamma_{kn}(x_{n}-\mu_{k})(x_{n}-\mu_{k})^{T}$
$\pi_{k} = \frac{N_{k}}{N}$
其中 $N_{k}=\sum_{n=1}^{N}\gamma_{kn}$ 。

2.3 EM算法估计GMM参数的迭代过程

第一步：初始化参数 $\mu$ 、 $\Sigma$ 和 $\pi$
第二步：计算后验概率，即E步
第三步：计算当前估计的参数，即M步
第四步：反复迭代第二步和第三步直至收敛

Charles Tu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ASR 混合高斯模型GMM的理解

混合高斯模型（GMM）是使用非常广泛的统计模型，一种非常高调的说法是，混合高斯模型能拟合一切数据。虽然实际还是受到很多限制，比如混合高斯分布数量需要确定等等，不难看出其强大指出。此文包含以下内容：GMM模型EM算法简单理解GMM首先讲一讲什么是高斯分布。在自然界数据中有个奇怪的现象：数据量满足一定量后，其统计分布呈现钟型。前人由此分析得到高斯分布。高斯分布的主要参数是数据的平均值μ\m...
复制链接

扫一扫