ML—高斯混合模型

最新推荐文章于 2023-07-31 09:05:42 发布

掉下个小石头

最新推荐文章于 2023-07-31 09:05:42 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhangzhengyi03539/article/details/51340213

版权

机器学习专栏收录该内容

32 篇文章 2 订阅

订阅专栏

华电北风吹
日期：2016-05-07

高斯混合模型属于EM框架的经典应用，不懂EM的先看参考博客一。具体重复的地方本文不重复讲。

高斯混合模型是一个无监督学习的密度估计算法，主要用思路是利用EM算法对混合高斯分布进行极大似然估计。
模型缺点：高斯核个数实现难以确定，EM算法的初始值敏感，局部最优等。

一、高斯混合分布
对于有 $k$ 个高斯分布混合而成的混合高斯分布的概率密度函数有
$p(x)=\sum_z p(x|z)p(z) \tag{1}$
对于随机变量 $z$ 有 $z$ ~ $Multinomial(\phi)$ , 表示来自于不同的高斯分布的概率分别为 $\phi_j,j=1,2,...,k$ ，即 $p(z=j)=\phi_j$ ，其中 $\phi_j \geq 0, \sum_{j=1}^k\phi_j=1$ 。对于每个高斯分布有 $x|z$ ~ $N(\mu_j,\Sigma_j)$ 。称满足以上分布的随机变量 $x$ 服从高斯混合分布。

二、高斯混合模型介绍
在这一部分我们都先来看与混合高斯分布有关的两个问题。
1、若给出混合高斯分布的参数 $\phi,\mu,\Sigma$ ，求采样样本为 $X=\{x^{(1)},x^{(2)},...,x^{(m)}\}$ 的概率。
2、、只给出混合高斯分布的采样样本 $X=\{x^{(1)},x^{(2)},...,x^{(m)}\}$ ，求混合高斯分布的参数 $\phi,\mu,\Sigma$ 。
这两个问题互为逆问题，第一个问题，由模型算样本概率第二个问题，由采样样本推算模型。第一个问题，一个全概率公式就可以搞定。第二个问题，就是本文要讨论的主要内容。

三、高斯混合模型
对于取样于高斯混合分布的 $m$ 个随机取样样本 $X=\{x^{(1)},x^{(2)},...,x^{(m)}\}$ ，混合高斯模型的目标是利用EM算法求解混合高斯分布的模型参数 $\phi,\mu,\Sigma$ 。
对于取样样本的对数似然函数为
$l(\phi,\mu,\Sigma)=\sum_{i=1}^{m} \log p(x^{(i)};\phi,\mu,\Sigma) \tag{3-1}$
由于每个样本 $x^{(i)}$ 可能来自于任意一个高斯核，在这里用一个隐变量 $z^{(i)}$ 表示样本i来自于高斯核 $z^{(i)}$ 。这样利用全概率公式公式(3-1)就可进一步写为
$l(\phi,\mu,\Sigma)=\sum_{i=1}^{m} \log p(x^{(i)};\phi,\mu,\Sigma)=\sum_{i=1}^{m} \log \sum_{z^{(i)}=1}^k p(x^{(i)}|z^{(i)};\mu,\Sigma)p(z^{(i)};\phi) \tag{3-2}$
利用极大似然估计的方法直接对公式(3-2)求解的话，会发现似然函数求偏导的时候对数函数里面包含关于参数 $\phi,\mu,\Sigma$ 的求和项，这使得极大似然求解特别麻烦。
而EM算法通过把似然函数转化为似然函数的一个如下形式的下确界，(具体细节，看参考博客)
$J(Q,\theta)=\sum_{i=1}^{m} \sum_{z^{(i)}=1}^k Q_i(z^{(i)})\log \frac{p(x^{(i)}|z^{(i)};\mu,\Sigma)p(z^{(i)};\phi)}{Q_i(z^{(i)})} \tag{3-3}$
在这个下确界形式中，对数函数里面不包含求和项，而使得极大似然估计变得容易。然后依次提高下确界形式的似然性达到求解原问题的目的。

EM迭代算法求解公式(3-2)的过程如下，
———————————————————————————-
$Algorithm$ $GMM(EM)$
给定初值 $\phi_0,\mu_0,\Sigma_0$
$Repeat$ $until$ $convergence$
　　　 $E-step:$ For each i,j set
　　　　　　　 $w_j^{(i)}:=p(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)$
　　　 $M-step:$ Update the parameters
　　　　　　　 $\phi_j:=\frac{1}{m}\sum_{i=1}^{m}w_j^{(i)}$
　　　　　　　 $\mu_j:=\frac{\sum_{i=1}^{m}w_j^{(i)}x^{(i)}}{\sum_{i=1}^{m}w_j^{(i)}}$
　　　　　　　 $\Sigma_j:=\frac{\sum_{i=1}^{m}w_j^{(i)} (x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T }{\sum_{i=1}^{m}w_j^{(i)}}$
———————————————————————————-
在 $Algorithm$ $GMM$ 中， $E-step$ 不用多说，看不懂的先去看EM算法框架，求解方式如下
$w_j^{(i)}=Q_i(z^{(i)}=j)=p(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)=\frac{p(x^{(i)}|z^{(i)}=j;\mu,\Sigma)p(z^{(i)}=j;\phi)}{\sum_{l=1}^{k}p(x^{(i)}|z^{(i)}=l;\mu,\Sigma)p(z^{(i)}=l;\phi)} \tag{3-4}$
若知道了隐变量参数 $z^{(i)}$ 的分布，利用EM算法就可以对公式(3-3)求极大似然估计
$\theta=arg\max_{\theta} J(Q,\theta)=arg\max_{\theta} \sum_{i=1}^{m} \sum_{z^{(i)}=1}^k Q_i(z^{(i)})\log \frac{p(x^{(i)}|z^{(i)};\mu,\Sigma)p(z^{(i)};\phi)}{Q_i(z^{(i)})} \tag{3-5}$
通过极大似然估计求解更新模型参数进行提升。在 $Algorithm$ $GMM(EM)$ 中， $M-step$ 就是据此利用极大似然估计对模型参数 $\phi,\mu,\Sigma$ 进行更新。