高斯混合模型（GMM）

最新推荐文章于 2025-03-25 09:00:00 发布

空杯的境界

最新推荐文章于 2025-03-25 09:00:00 发布

阅读量5.2k

点赞数 4

分类专栏： 01_机器学习文章标签：高斯混合模型 GMM EM 算法期望最大算法机器学习

本文链接：https://blog.csdn.net/benzhujie1245com/article/details/104737005

版权

01_机器学习专栏收录该内容

32 篇文章

订阅专栏

本内容主要介绍 高斯混合模型，以及 如何使用 EM 算法（期望最大算法）估计其参数。

高斯混合模型（Gaussian Mixture Model，GMM），是一种业界广泛使用的聚类算法，该方法使用 高斯分布 作为参数模型，并使用 期望最大（Expectation Maximization，简称 EM）算法 进行训练。

1.1 高斯分布

高斯分布（Gaussian distribution）有时也被称为 正态分布（normal distribution），是一种在自然界大量存在的、最为常见的分布形式。

高斯分布的概率密度函数公式如下：

$\mathcal{N}(x|\mu, \sigma) =\frac{1}{\sqrt{2\pi} \sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1.1}$

其中，参数 $\mu$ 表示均值，参数 $\sigma$ 表示标准差。均值对应正态分布的中间位置，标准差衡量了数据围绕均值分散的程度。图 1.1 是标准正态分布的图形，即 $\mu=1$ ， $\sigma=0$ 的正态分布。

图 1.1 标准正态分布

当一个模型为一个高斯分布时，我们可以将其称为 单高斯模型（Gaussian single model, GSM）。如果样本数据 $x$ 为一维的，称这个模型为 一维单高斯模型；当样本数据 $\mathbf{x}$ 是多维数据时，称这个模型为 多维单高斯模型，其概率密度函数为：

$\mathcal{N}(\mathbf{x} | \mu,\Sigma) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp\left( -\frac{(\mathbf{x} - \mu)^{\Tau} \Sigma^{-1} (\mathbf{x}-\mu)}{2} \right) \tag{1.2}$

其中， $n$ 为数据维度， $\mu$ 为 $n$ 维均值向量（期望）， $\Sigma$ 为 $\times n$ 的协方差矩阵。

1.2 高斯混合模型

高斯混合模型（Gaussian Mixture Model，GMM）是由多个高斯分布组成的模型，其密度函数为多个高斯密度函数的加权组合，即：

$\sum_{j=1}^{k} p(j)p(x|j) =\sum_{j=1}^{k} \pi_j \mathcal{N}(x|\mu_j, \sigma_j) \tag{1.3}$
其中， $\pi_j$ 表示第 $j$ 个高斯分布的权重系数，并满足 $\pi_j \geq 0$ ， $\sum_{j=1}^{k} \pi_{j} = 1$ 。

图 1.2 高斯混合模型

图 1.2 中 $y_1$ 、 $y_2$ 和 $y_3$ 分别表示三个一维单高斯模型； $y_{gmm1}$ 、 $y_{gmm2}$ 和 $y_{gmm3}$ 分别表示三个高斯混合模型。理论上 GMM 可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况。

高斯混合模型的生成过程可以分为两步：

首先按 $\pi_1,\pi_2,\cdots,\pi_k$ 的分布，随机选取一个高斯分布；
假设选中第 $j$ 个高斯分布，再从高斯分布 $\mathcal{N}(x|\mu_j,\sigma_j)$ 中选取一个样本 $x$ 。

1.3 使用 EM 算法估计 GMM 的参数

针对单高斯模型，我们可以使用最大似然估计估计其参数。针对高斯混合模型，因为无法知道当前样本来自于哪个高斯分布，即存在隐变量，所以无法使用最大似然估计估计其参数，需要使用 EM 算法估计其参数。

1.3.1 使用 EM 算法估计 GMM 的参数

下面我们使用 EM 算法估计 GMM 的参数，我们以样本 $x$ 为一维数据进行介绍。

首先 E 步，我们需要求 $Q_i(z^{(i)}=j)$ ，即：

$Q_i(z^{(i)} = j) = p(z^{(i)} | x^{(i)}; \theta) \tag{1.4}$

根据贝叶斯定理得：

$\begin{aligned} \gamma_{j}^{(i)} &= p(z^{(i)} = j|x^{(i)}) \\ &= \frac{p(z^{(i)} = j) p(x^{(i)}|z^{(i)}=j)}{p(x^{(i)})} \\ &= \frac{\pi_j \mathcal{N}(x^{(i)}|\mu_j,\sigma_j)} {\sum_{l=1}^{k} \pi_l \mathcal{N}(x^{(i)}|\mu_l,\sigma_l)} \end{aligned} \tag{1.5}$

在式（1.5）中，定义了 $\gamma_j^{(i)}$ 为样本 $x^{(i)}$ 属于第 $j$ 个高斯分布的后验概率。

然后 M 步，最大化下界，下界表达式为：

$\begin{aligned} LL(D) &=\sum_{i=1}^{m} \sum_{z^{(i)}} Q_i(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\pi,\mu,\sigma)}{Q_i(z^{(i)})} \\ &= \sum_{i=1}^{m} \sum_{j=1}^{k} Q_i(z^{(i)}=j) \log \frac{p(x^{(i)}|z^{(i)}=j;\mu,\sigma) p(z^{(i)}=j)} {Q_i(z^{(i)}=j)} \\ &= \sum_{i=1}^{m} \sum_{j=1}^{k} \gamma_j^{(i)} \log \frac{\mathcal{N}(x^{(i)}|\mu_j,\sigma_j) \pi_j}{\gamma_j^{(i)}} \\ &= \sum_{i=1}^{m} \sum_{j=1}^{k} \gamma_j^{(i)} \log \frac{\frac{1}{\sqrt{2\pi} \sigma_j} \exp{(-\frac{(x^{(i)}-\mu_j)^2}{2\sigma_j^2})} \cdot \pi_j} {\gamma_j^{(i)}} \\ &= \sum_{i=1}^{m} \sum_{j=1}^{k} \gamma_j^{(i)} \left(-\log\sqrt{2\pi} - \log \sigma_j -\frac{(x^{(i)}-\mu_j)^2}{2\sigma_j^2} +\log \pi_j - \log{\gamma_j^{(i)}} \right) \end{aligned} \tag{1.6}$

我们通过最大化 $L L (D)$ 来求得 $\mu_j$ ， $\sigma_j$ 和 $\pi_{j}$ 。

1.3.2 求解 $\mu_j$ ， $\sigma_j$ 和 $\pi_{j}$ 的公式推导

下面我们详细介绍一下 $\mu_j$ 的求解过程。首先求式（1.6）中 $L L (D)$ 关于 $\mu_j$ 的偏导：

$\begin{aligned} \nabla_{\mu_j} &\sum_{i=1}^{m} \sum_{j=1}^{k} \gamma_j^{(i)} \left(-\log\sqrt{2\pi} - \log \sigma_j -\frac{(x^{(i)}-\mu_j)^2}{2\sigma_j^2} +\log \pi_j - \log{\gamma_j^{(i)}} \right) \\ &= \sum_{i=1}^{m} \gamma_j^{(i)} (\frac{2(x^{(i)}-\mu_j)}{2\sigma_j^2}) \\ &= \sum_{i=1}^{m} \gamma_j^{(i)} \frac{(x^{(i)}-\mu_j)}{\sigma_j^2} \end{aligned} \tag{1.7}$

然后令式（1.7）为 $0$ ，并且两边同时乘以 $\sigma_j^2$ 得：

$\begin{aligned} \sum_{i=1}^{m} \gamma_j^{(i)} (x^{(i)}-\mu_j) &= 0 \\ \sum_{i=1}^{m} \gamma_j^{(i)} x^{(i)} &= \mu_j \sum_{i=1}^{m} \gamma_j^{(i)} \end{aligned} \tag{1.8}$

根据式（1.8）得：

$\mu_j = \frac{\sum_{i=1}^{m} \gamma_j^{(i)} x^{(i)}}{\sum_{i=1}^{m} \gamma_j^{(i)}} \tag{1.9}$

这样我们就求得 $\mu_j$ 的值了。采用同样的方法，可以求得：

$\sigma_j = \frac{\sum_{i=1}^m \gamma_j^{(i)} (x^{(i)} - \mu_j)^2} {\sum_{i=1}^{m} \gamma_j^{(i)}} \tag{1.10}$

对于 $\pi_{j}$ ，因为其需要满足 $\pi_j \geq 0$ ， $\sum_{j=1}^{k} \pi_j = 1$ ，所有我们需要使用拉格朗日乘子法求它的值。即求 $\lambda(\sum_{j=1}^m\pi_j - 1)$ 关于 $\pi_j$ 的偏导，然后令其为 $0$ ，最终可求得：

$\pi_j = \frac{1}{m} \sum_{i=1}^{m} \gamma_j^{(i)} \tag{1.11}$

当样本 $\mathbf{x}$ 为多维数据时，需要转换为向量形式， $\mu_j$ 、 $\Sigma_j$ 和 $\pi_{j}$ 分别为：

$\mathbf{\mu}_j = \frac{\sum_{i=1}^{m} \gamma_j^{(i)} \mathbf{x}^{(i)}}{\sum_{i=1}^{m} \gamma_j^{(i)}} \tag{1.12}$

$\Sigma_j =\frac{\sum_{i=1}^m \gamma_j^{(i)} (\mathbf{x}^{(i)}-\mu_j)(\mathbf{x}^{(i)}-\mu_j)^{\Tau}} {\sum_{i=1}^{m} \gamma_j^{(i)}} \tag{1.13}$

$\pi_j = \frac{1}{m} \sum_{i=1}^{m} \gamma_j^{(i)} \tag{1.14}$

1.3.3 高斯混合模型的参数学习算法

高斯混合模型的参数学习算法流程如下：

随机初始化参数： $\pi_j$ ， $\mu_j$ 和 $\sigma_j$ ， $\leq j \leq k$ 。
E 步：根据当前参数（即 $\pi_j$ ， $\mu_j$ 和 $\sigma_j$ ，由第 1 步初始化或第 3 步求得的）来计算每个样本属于每个高斯分布的后验概率 $\gamma_j^{i}$ ， $\leq i \leq m$ ， $\leq j \leq k$ 。
M 步：根据第 2 步求得的 $\gamma_j^{(i)}$ 计算 $\pi_j$ ， $\mu_j$ 和 $\sigma_j$ ， $\leq j \leq k$ 。
重复第 2 步和第 3 步，直到收敛。

1.4 K-means 和 GMM 的关系

K-means 模型首先随机初始化聚类中心，然后计算所有样本到 k 个聚类中心的距离，将样本归入离其最近的一个聚类中心所在的簇。然后对形成的每个簇，重新计算聚类中心，计算方式为簇内所有样本点的均值。有了新的聚类中心后，重新计算所有样本到 k 个聚类中心的距离，将样本归入离其最近的聚类中心所在的簇。不断迭代这两个步骤，当聚类中心不再发生变化或者达到最大迭代次数时结束。

k-means 将样本分到离其最近的聚类中心所在的簇，也就是每个样本数据属于某簇的概率非 0 即 1。对比 k-means，高斯混合的不同之处在于，样本点属于某簇的概率不是非 0 即 1 的，而是属于不同簇有不同的概率值。