混合高斯模型(Gaussian Mixture Model)及其参数计算方法

Mr.exp(Zhao)

已于 2023-05-09 19:42:53 修改

阅读量6.9k

点赞数 6

分类专栏： # Probability Theory 文章标签：概率论算法

于 2023-05-09 19:41:09 首次发布

本文链接：https://blog.csdn.net/m0_46496488/article/details/130581416

版权

Probability Theory 专栏收录该内容

3 篇文章

订阅专栏

混合高斯模型及其计算方法

高斯分布
- 一维高斯分布
- 多维高斯分布
混合高斯模型(GMM)
参考文献

高斯分布

高斯分布(Gaussian Distribution)又称正态分布(Normal Distribution)，因其具有良好的数学和计算性质，被广泛应用于各个领域。
根据棣莫弗中心极限定理，一组具有有限均值方差的独立同分布的随机变量之和，近似服从正态分布。这个定理奠定了自然界中的各种现象，必定和正态分布有着密不可分的关系。

一维高斯分布

设一维随机变量 $X$ 服从均值为 $\mu$ ，方差为 $\sigma^{2}$ 的正态分布，记为 $\sim N(\mu, \sigma^{2})$
其概率密度函数(PDF)为：
$\begin{equation} \phi(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma} e^{\displaystyle -\frac{(x-\mu)^{2}}{2\sigma^{2}}} \end{equation}$
高斯分布的概率密度函数呈现出在均值处高、两边低的形状，因此又被称为钟形分布

多维高斯分布

多维高斯分布的每一个维度都是一个正态分布，它们不一定互相独立，下图是一个二维正态分布^[1]的概率密度函数图像：
请添加图片描述
具有协方差矩阵 $\Sigma$ 的 $N$ 维正态分布，可记为 $N(\mu,\Sigma)$ ，其中：
$\mu$ 代表均值向量
$\Sigma$ 代表协方差矩阵

其概率密度表达式为：
$\begin{equation} \phi(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{N}{2}} |\Sigma|^{\frac{1}{2}}} e^{\displaystyle -\frac{(x-\mu)^{T}\Sigma^{-1}(x-\mu)}{2}} \end{equation}$

混合高斯模型(GMM)

对于一组呈多峰分布的数据或非椭圆分布族，难以用一个正态分布进行建模，因此需要使用混合模型对其进行建模。

混合高斯模型概率分布

$\begin{equation} p(x;\theta)=\sum_{k=1}^{K}\alpha_{k}\phi(x;\theta_{k}) \ \ \ \ \ \ \ ,\sum_{k=1}^{K}\alpha_{k}=1 \end{equation}$
其中^[2]：
$\alpha_{k}$ 代表第 $k$ 个子模型在总体中出现的概率
$K$ 代表一共有 $K$ 个子模型
$\theta$ 代表GMM中各个子模型的参数集合
$\theta_{k}$ 代表第 $k$ 个子模型的参数

可以看到，GMM并不是多个服从正态分布的随机变量的和，而是多个服从正态分布的随机变量的概率密度的加权和。并且容易证明，对 $(3)$ 式进行反常积分，结果还是1。
从式子中也可以很直观地想象出GMM密度函数的图像是包含多个正态峰的曲线。

参数估计

对于给定的大量样本集合，可以使用极大似然估计求出其各个子模型的均值和方差
对于 $N$ 个独立同分布的样本，以及给定的超参数K，该分布参数的似然函数为：
$\begin{equation} \begin{split} L(\theta)&=ln\prod_{i=1}^{N} p(x_{i};\theta) \\ &= \sum_{i=1}^{N}(ln \sum_{k=1}^{K}\alpha_{k}\phi_{k}(x_{i};\theta_{k})) \end{split} \end{equation}$
求解这个似然函数的极大值非常困难，但是可以使用EM算法进行迭代求解

EM算法求解参数

令 $p_{ik}$ 代表给定第 $i$ 个样本的值，其在第 $k$ 个子模型中的概率，即 $P(K=k|X=x_{i})$
迭代法算法如下：

初始化 $\theta_{k}$
计算 $p_{ik}$ ：
$p_{ik}=\frac{\alpha_{k} \phi_{k}(x_{i}|\theta_{k})}{\sum_{k=1}^{K}\alpha_{k} \phi_{k}(x_{i}|\theta_{k})}$
计算 $\mu_{k}$ ：
$\mu_{k}=\frac{\sum_{i=1}^{N}p_{ik}x_{i}}{\sum_{i=1}^{N}p_{ik}}$
计算 $\sigma_{k}$ ：
$\sigma_{k}=\frac{\sum_{i=1}^{N}p_{ik}(x_{i}-\mu_{k})(x_{i}-\mu_{k})^{T}}{\sum_{i=1}^{N}p_{ik}}$
计算下一次迭代的 $\alpha_{k}$ ，若 $||\theta_{i}-\theta_{i+1}||<\varepsilon$ ，终止迭代；否则，转第2步
$\alpha_{k}=\frac{\sum_{i=1}^{N}p_{ik}}{N}$