高斯混合模型(GMM)推导

最新推荐文章于 2024-05-23 15:24:27 发布

Zicon in广工

最新推荐文章于 2024-05-23 15:24:27 发布

阅读量1.2k

点赞数 3

分类专栏：笔记机器学习

本文链接：https://blog.csdn.net/qq_43753525/article/details/111770010

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

笔记

3 篇文章 0 订阅

订阅专栏

数据表示如下：

$X$ ：观测数据， $X=\{x_1,x_2,...,x_N\}$

$(X, Z)$ ：complete data， $X,Z)=\{(x_1,z_1),(x_2,z_2),...,(x_N,z_N)\}$

$\theta$ ：参数， $\theta=\{P_1,...,P_k,\mu_1,...,\mu_k,\Sigma_1,...,\Sigma_k\}$ ，其中 $P_k$ 表示第k个高斯分布的权重/概率， $\mu_k$ 表示第k个高斯分布的均值， $\Sigma_k$ 表示第k个高斯分布的协方差矩阵

文章整体思路如下：

第一章从几何角度和混合模型角度两个角度，较为直观地介绍GMM，并介绍了GMM的概率图表示
第二章基于EM算法推导了GMM的三个参数 $p_j,\mu_j,\Sigma_j$ 的更新公式，不过详细的求偏导的过程放在第五章附录中，采用微分法进行求导
第三章对GMM进行总结

一、GMM介绍

1.1 几何角度

我们首先从几何角度来看GMM，假设我们现有的数据分布如下图中的 X 所示，可以发现，仅仅使用一个高斯分布很难较好地描述这组数据的分布（任一蓝色曲线），因此，我们可以两个高斯分布进行加权平均得到一个新的分布（红色曲线），可以发现用这个新的分布去描述这组数据的分布是比较合适的，其中每个数据点都有一定的概率属于两个高斯分布中的一个。

在这里插入图片描述

这其实就是GMM了，即GMM只是若干个高斯分布的加权平均（上图中是两个高斯分布）而已，即：

$P(x)=\sum_{k=1}^K\alpha_k·N(\mu_k,\Sigma_K)$ ， $\sum_{k=1}^K\alpha_k=1$

1.2 混合模型角度

我们还可以从混合模型的角度来看GMM，如下图所示，两个蓝色的同心圆即表示两个高斯分布，与硬分类不同，我们每个数据点都有属于每个高斯分布的可能性，我们用概率去描述这个可能性，如下图中圈起来的 X 所示，它有 $p_1$ 的概率属于分布 $c_1$ ，有 $p_2$ 的概率属于分布 $c_2 $，显然，$ p_1>p_2$：

在这里插入图片描述

设 $x$ 表示观测数据； $z$ 是我们引入的隐变量，用于表示对应的样本属于哪一个高斯分布。

在GMM中， $Z$ 是离散型的随机变量。

Z	$c_1$	$c_2$	…	$c_N$
P	$P_1$	$P_2$	…	$P_N$

引入隐变量 $Z$ 后，有：
在这里插入图片描述

基于MLE估计最佳参数 $\theta_{MLE}$ ，有：
在这里插入图片描述

可以发现，无论从哪个角度看，GMM的表达式都是一样的：

几何角度： $P(x)=\sum_{k=1}^K\alpha_k·N(\mu_k,\Sigma_K)$
混合模型角度： $P(x)=\sum_{k=1}^KP_k·N(x|\mu_k,\Sigma_k)$

1.3 GMM的概率图

GMM是最简单的生成模型了，其生成过程分为两步：

决定当前样本 $x_i$ 服从哪个高斯分布
从所选的高斯分布中进行抽样，生成 $x_i$

其概率图如下所示：

在这里插入图片描述

二、GMM的参数更新

在1.2通过MLE估计GMM的参数时，我们得到的结果是：
$\theta_{MLE}=\mathop{\arg\max}_{\theta}\sum_{i=1}^N\log\sum_{k=1}^KP_k·N(x|\mu_k,\Sigma_k)$
但是，由于对数里面带有连加符号，因此我们没办法通过直接令参数的导数为0，进而求得对应的参数估计值。

现在的问题是，我们引入了隐变量 $Z$ ，想要估计隐变量 $Z$ ，则必须用到参数 $p_k,\mu_k,\Sigma_k$ ；而想估计参数 $p_k,\mu_k,\Sigma_k$ ，又必须用到参数 $Z$ 。即我们面对的是先有鸡还是先有蛋的问题。通常面对这种带隐变量的参数估计问题，我们会使用EM算法的思想去解决。