高斯混合模型GMM及EM算法的求解

最新推荐文章于 2024-07-20 23:39:37 发布

仙宫大niu

最新推荐文章于 2024-07-20 23:39:37 发布

阅读量611

点赞数 3

分类专栏：人工智能

本文链接：https://blog.csdn.net/weixin_42973814/article/details/124405899

版权

机器学习深度学习算法

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

高斯混合模型GMM与EM算法的求解

一、基础知识

1.1 高斯分布与概率密度函数

二、高斯混合模型GMM介绍

2.1 示例

2.2 高斯混合模型

三、EM算法

3.1 EM算法估计参数

3.2 EM算法流程

一、基础知识

1.1 高斯分布与概率密度函数

高斯分布也就是我们所熟知的正态分布，是研究表明，在数学、物理科学和经济学等学科中，大量数据的分布通常是服从高斯分布，应用范围非常广泛。高斯分布的定义为：假设随机变量 $X$ 服从高斯分布，即：
$\begin{array}{c} \mathcal{X\sim N} (\mu , \sigma ^{2} ) \end{array}$
高斯分布的概率密度函数为：
$\begin{array}{c} \mathcal{f} (x)=\frac{1}{\sqrt{2\pi }\sigma } e^{-\frac{(x-\mu )^{2} }{2\sigma ^{2} } } \end{array}$
其中 $\mu$ 为数学期望， $\sigma ^{2}$ 为方差。
如图1所示，均值与方差决定分布的位置与幅度。
在这里插入图片描述 图1 高斯分布示例图

对于高维高斯模型，与一维类似，自变量变成了多维，多维变量 $\begin{array}{c} X=（x_{1} ,x_{2},\dots x_{n} ） \end{array}$ ,联合概率密度函数为：
$\begin{array}{l} f(x)=\frac{1}{(2 \pi)^{\frac{D}{2}} \sqrt{|\Sigma|}} \mid \exp \left(-\frac{(x-\mu)^{T} \Sigma^{-1}(x-\mu)}{2}\right) \end{array}$
其中 $D$ 表示数据维度， $\Sigma$ 表示协方差矩阵，描述各维向量之间的相关度。

二、高斯混合模型GMM介绍

2.1 示例

举一个简单的例子，如图2所示，对高斯分布做参数估计，得到一个高斯分布模型，很明显这样的分布不太合理，数据点明显分成两个聚类，按照这个模型，椭圆中心的样本数量极少，一般来讲越靠近椭圆中心样本出现的概率越大，这是由概率密度函数所决定的，所以，样本数据服从单高斯分布不合理。
在这里插入图片描述
图2 单高斯模型分析样本

这时求解两个高斯模型，通过一定的权重将两个高斯模型融合成一个模型，即最终的混合高斯模型，图3是混合高斯模型对样本进行描述。
在这里插入图片描述
图3 混合高斯模型分析样本

2.2 高斯混合模型

高斯混合模型GMM（Gaussian Mixture Model）是一类聚类算法。它是多个高斯分布函数的线性组合，通常用于解决统一集合下的数据包含多种不同分布的情况。
设随机变量 $X$ ，则高斯混合模型的可以描述为：
$\begin{array}{c} P(x)=\sum_{k=1}^{K} \pi _{k}N(x|\mu _{k}, \Sigma _{k} ) \end{array}$
其中， $K$ 为混合模型中子高斯模型的数量， $\pi _{k}$ 是混合系数，表示观测数据属于第 $k$ 个子模型的概率，且满足 $\begin{array}{c} \pi _{k} \ge 0,\sum_{k=1}^{K} \pi _{k} =1 \end{array} ，$ 也可以理解为每个成分的权重， $\begin{array}{c} \mathcal{N（x|\mu _{k} ,\Sigma _{k} ）} \end{array}$ 是第 $k$ 个子模型的高斯分布密度函数， $\mu$ 为均值， $\Sigma$ 是协方差矩阵。

引入一个隐变量 $y_{j}$ ，它是一个 $K$ 维向量，每一次采样，选择第 $k$ 个高斯模型的概率，它只在某个特定元素取值为1，其它元素取值为0。将高斯混合模型改写为： $\begin{array}{c} P(x)=\sum_{k=1}^{K}p(y_{j})p(x|y_{j}) \end{array}$
对比可得： $\pi _{k}=p(y_{j})$ ， $p(x|y_{j})=N(x|\mu _{k},\Sigma _{k} )$ ,利用这些公式根据贝叶斯理论求解后验概率 $p(y_{j}|x)$ 。
记 $\begin{array}{c} \Upsilon _{jk} =p(y_{j} |x) \end{array}$ ，且满足 $\begin{array}{c} \sum_{k=1}^{K} \Upsilon _{jk} =1 \end{array}$ 。

三、EM算法

3.1 EM算法估计参数

解GMM模型，实际上就是确定GMM模型的参数 $(\mu ,\pi ,\Sigma )$ ，由这些参数确定GMM模型最有可能产生的样本。求解参数的流程为：首先写出似然函数，对似然函数取对数，接着对其求导，并令导数为0，得出模型参数。
最大似然函数为：
$\begin{array}{c} \begin{array}{l} L L=\sum_{j=1}^{M} \log \left(\sum_{k=1}^{K} \pi_{k} N\left(x \mid \mu_{k}, \Sigma_{k}\right)\right) \\ =\sum_{j=1}^{M} \log \left(\sum_{k=1}^{K} \frac{\Upsilon_{j k} \pi_{k} N\left(x \mid \mu_{k}, \Sigma_{k}\right)}{\Upsilon_{j k}}\right) \\ \geq \sum_{j=1}^{M} \sum_{k=1}^{K} \Upsilon_{j k} \log \left(\frac{\pi_{k} N\left(x \mid \mu_{k}, \Sigma_{k}\right)}{\Upsilon_{j k}}\right) \end{array} \end{array}$

记 $\begin{array}{c} H=\sum_{j=1}^{M} \sum_{k=1}^{K} \Upsilon _{jk} log(\frac{\pi _{k}N(x_{n}|\mu _{k},\Sigma _{k} ) }{\Upsilon _{jk} }) \end{array}$ ，分别对 $\begin{array}{c} \mu _{k} 、\Sigma _{k} 和\pi _{k} \end{array}$ 求导，并令结果等于0，得出结果。
$\begin{array}{c} \end{array}\begin{array}{l} H=\sum_{j=1}^{M} \sum_{k=1}^{K} \Upsilon_{j k} \log \left(\frac{\pi_{k} N\left(x_{n} \mid \mu_{k}, \Sigma_{k}\right)}{\Upsilon_{j k}}\right) \\ =\sum_{j=1}^{M} \sum_{k=1}^{K} \Upsilon_{j k} \log \left[\frac{\pi_{k}}{\Upsilon_{j k}} \cdot \frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \cdot \exp \left(-\frac{1}{2}\left(x_{n}-\mu_{k}\right)^{T} \Sigma_{k}^{-1}\left(x_{n}-\mu_{k}\right)\right]\right. \end{array}$
对 $\Sigma _{k}$ 求导
$\begin{array}{l} \frac{\partial H}{\partial \Sigma_{k}}=\sum_{j=1}^{M} \Upsilon_{j k}\left[\frac{\pi_{k}}{\Upsilon_{j k}} \cdot \frac{1}{-\left|\sum\right|^{\frac{1}{2}}} \cdot \frac{1}{2} \Sigma^{-\frac{1}{2}}\left|\sum_{k}\right|\left(\Sigma^{-1}\right)^{T}+\frac{1}{2}\left(\Sigma_{k}^{-1}\right)^{T}\left(x_{n}-\mu_{k}\right)^{T}\left(x_{n}-\mu_{k}\right)\left(\Sigma_{k}^{-1}\right)^{T}\right] \\ =\sum_{j=1}^{M} \Upsilon_{j k}\left[-\frac{1}{2}\left(\Sigma_{k}^{-1}\right)^{T}+\frac{1}{2}\left(\Sigma_{k}^{-1}\right)^{T}\left(x_{n}-\mu_{k}\right)\left(x_{n}-\mu_{k}\right)^{T}\left(\Sigma_{k}^{-1}\right)^{T}\right] \end{array}$
令导数为0，即：
$\begin{array}{l} \frac{\partial H}{\partial \Sigma_{k}}=\sum_{j=1}^{M} \Upsilon_{j k}\left[-\frac{1}{2}\left(\Sigma_{k}^{-1}\right)^{T}+\frac{1}{2}\left(\Sigma_{k}^{-1}\right)^{T}\left(x_{n}-\mu_{k}\right)\left(x_{n}-\mu_{k}\right)^{T}\left(\Sigma_{k}^{-1}\right)^{T}\right] \end{array}=0$
先左乘 $\Sigma _{k}^{T}$ ，再右乘 $\Sigma _{k}^{T}$ ，注意 $\begin{array}{l} \Sigma _{k} =\Sigma _{k}^{T} \end{array}$ 。

$\begin{array}{l} \Sigma _{j=1}^{M} \Upsilon _{jk} [-\Sigma _{k}+(x_{n} -\mu _{k}) (x_{n} -\mu _{k} )^{T} ] \end{array}=0$
$\begin{array}{l} -\Sigma _{j=1}^{M} \Upsilon _{jk}\Sigma _{k}+\Sigma _{j=1}^{M} \Upsilon _{jk}(x_{n} -\mu _{k})(x_{n} -\mu _{k} )^{T} \end{array}=0$
得出：
$\Sigma _{k}=\frac{\sum_{j=1}^{M} \Upsilon_{j k}\left(x_{n} -\mu _{k}\right)\left(x_{n} -\mu _{k} \right)^{T}}{\sum_{j=1}^{M} \Upsilon_{j k}}$
同理，求 $\mu _{k}$
$\begin{array}{l} \frac{\partial H}{\partial \mu_{k}}=\sum_{j=1}^{M} \Upsilon_{j k}\left[\frac{1}{2}\left(\left(\Sigma_{k}^{-1}\right)^{T}+\Sigma_{k}^{-1}\right)\left(x_{n}-\mu_{k}\right)\right] \end{array}=0$
两边同时左乘 $\Sigma _{k}$ ，得到：
$\mu _{k}=\frac{\sum_{j=1}^{M} \Upsilon_{j k} x_{n}}{\sum_{j=1}^{M} \Upsilon_{j k}}$
最后，求解 $\pi _{k}$ ， $\pi _{k}$ 有限制条件： $\begin{array}{l} \sum_{k=1}^{K} \pi _{jk} =1 \end{array}$ ，需要加入拉格朗日算子进行计算：
$\begin{array}{l} F+\lambda( \sum_{k=1}^{K} \pi _{k} -1)=0 \end{array}$
对 $\pi _{k}$ 求导：
$\begin{array}{l} \frac{\partial F}{\partial \pi _{k} } +\lambda( \sum_{k=1}^{K} \pi _{k} -1)=0 \end{array}$
解出：
$\begin{array}{l} \pi _{k} =- \frac{\sum_{j=1}^{M}\Upsilon _{jk} }{\lambda } \end{array}$
对和 $\lambda$ 求导：
$\begin{array}{l} \frac{\partial F}{\partial \lambda } =\sum_{k=1}^{K} \pi _{k}-1=0 \end{array}$
将 $\pi _{k}$ 值代入上式，其中 $\sum_{k=1}^{K} \Upsilon _{jk} =1$ ， $\sum_{k=1}^{K} \sum_{j=1}^{M} \Upsilon _{jk} =\sum_{j=1}^{M}\sum_{k=1}^{K} \Upsilon _{jk}$ ，得出：
$\lambda =-M$
将 $\lambda$ 代回 $\pi _{k}$ 中，得出 $\pi _{k}$ ：
$\begin{array}{l} \pi _{k}= \frac{\sum_{j=1}^{M}\Upsilon _{jk}}{M} \end{array}$

3.2 EM算法流程

EM算法是一种迭代算法，具体计算步骤为：
（1）首先初始化参数
（2）E-step，求期望，依据当前的参数，计算每个数据 $j$ 来自模型 $k$ 的可能性，
$\begin{array}{l} \Upsilon_{j k}=\frac{\pi_{k} N\left(x \mid \mu_{k}, \Sigma_{k}\right)}{\sum_{l} \pi_{l} N\left(x \mid \mu_{l}, \Sigma_{l}\right)} \end{array}$
（3）M-step：求极大，计算新一轮迭代的模型参数
$\mu_{k}^{n e w}=\frac{\sum_{j=1}^{M} \Upsilon_{j k} x_{n}}{\sum_{j=1}^{M} \Upsilon_{j k}}$
${\textstyle \sum_{k}^{new}} =\frac{\sum_{j=1}^{M} \Upsilon_{j k}\left(x_{n}-\mu_{k}^{n e w}\right)\left(x_{n}-\mu_{k}^{n e w}\right)^{T}}{\sum_{j=1}^{M} \Upsilon_{j k}}$
$\begin{array}{l} \pi _{k}^{\text {new }}= \frac{\sum_{j=1}^{M}\Upsilon _{jk}}{M} \end{array}$
（4）重复计算E-step和M-step：直至收敛。

参考:
[1]高斯混合模型
 [2]EM算法
 [3]GMM 模型与EM算法求解详细推导
 [4]高斯混合模型（GMM）及其EM算法的理解

仙宫大niu

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
高斯混合模型GMM及EM算法的求解

高斯混合模型GMM与EM算法的求解一、基础知识1.1 高斯分布与概率密度函数二、高斯混合模型GMM介绍2.1 示例2.2 高斯混合模型三、EM算法3.1 EM算法估计参数3.2 EM算法流程一、基础知识1.1 高斯分布与概率密度函数高斯分布也就是我们所熟知的正态分布，是研究表明，在数学、物理科学和经济学等学科中，大量数据的分布通常是服从高斯分布，应用范围非常广泛。高斯分布的定义为：假设随机变量XXX服从高斯分布，即：X∼N(μ,σ2)\begin{array}{c}\mathca
复制链接

扫一扫