高斯混合模型GMM和EM

最新推荐文章于 2022-08-13 10:35:32 发布

_小庄

最新推荐文章于 2022-08-13 10:35:32 发布

阅读量2k

点赞数

分类专栏： math 文章标签：算法

本文链接：https://blog.csdn.net/junshen1314/article/details/50300421

版权

math 专栏收录该内容

15 篇文章 6 订阅

订阅专栏

高斯混合模型（GMM），是一种可以用来匹配测试数据集的常用模型。和K-means一样，经常用来做数据分类，其中应用的Expectation-Maximization(EM)算法更是可以看做k-means 的一般特例。
首先区别两个概念
1.单高斯分布模型（GSM）
这里我们不要把单高斯分布和单变量高斯分布混淆了，虽然他们只是维数不同，但是理解成单变量可能会对我们的多高斯分布的理解造成混乱。
这个是单变量高斯模型（也即正态分布）：

f (x) = 1 2 π - - \sqrt σ e x p (- ( x - μ ) 2 2 σ 2)

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
这个是单高斯分布模型

N(x;u,Σ)=12π√|Σ|exp[−12(x−u)T]Σ−1(x−u) $\ \ N(x;u,\Sigma)=\frac{1}{\sqrt{2\pi}|\Sigma|}exp[-\frac{1}{2}(x-u)^T]\Sigma^-1(x-u)$
比如我们有下面这样一组数据集[1，2]，
Fig.1单高斯模型匹配

从图中我们可以看出，这个数据集我们可以用高斯模型进行匹配（二维），直观来看，效果应该是比较好的（当然你肯定可以用k-means等等）。
2.高斯混合模型
为什么要提出这个概念呢？先上个图片瞅瞅，从图中我们明显看出来，如果用单高斯模型去fit这些数据，肯定是不合理的。但是看着这个图我们可以得到一点启发，我们能不能用多高斯模型匹配呢？你看这幅图长得像不像很多个高斯模型（椭圆）混在一起的样子？这就是我们要研究这个模型的动机。
这里写图片描述

这里我们先上一个公式，现有一点认识，后面我们慢慢讲这个公式是怎么来的
GMM模型：

P r (x) = Σ K k = 1 π k N (x; u k, Σ k)

$Pr(x)=\Sigma_{k=1}^K\pi_{k}N({x;u_k,\Sigma_k})$ ,这里的

πk $\pi_k$ 是选中参量为

uk和Σk $u_k 和\Sigma_k$ 的概率，也叫权值因子。从公式中我们可以看出来，这个GMM就是由多个单高斯分布GSM按照一定的权值组装起来的。所以这里比较关键的问题，除了根据数据集，按照极大似然估计的办法估计出参数

uk和Σk $u_k 和\Sigma_k$ 外，还要知道组成混合模型的每一个单个模型大概占多少比重，这个比重可以通过EM求得，后面我们会细讲。

这里有个问题，为什么我们要假设数据是由若干个高斯分布组合而成的，而不假设是其他分布呢？实际上不管是什么分布，只K取得足够大，这个XX Mixture Model就会变得足够复杂，就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能，所GMM被广泛地应用[1]。

下面言归正传，我们通过一个简单的例子来大概理解一下混合高斯模型和EM算法[3]
混合模型： $f(x)=(1-\pi)g_1(x)+\pi g_2{x}$
高斯混合： $g_j(x)=\phi_{\theta_j}(x),\theta_j=(\mu_j,\sigma^2_j)$
继续盗个图[3]
这里写图片描述
左边的两个图表示两个高斯模型，右边的图表示的是相对密度，也叫每个类的responsibilities，他被定义为： $g_1(x)/(g_1(x)+g_2(x))$ 和 $g_2(x)/(g_1(x)+g_2(x))$ ,这个概念对我们使用EM非常重要，EM就是通过这个responsibilities来将两个类平滑的分开。
接着我们讲一个更为具体的例子：
这里写图片描述
我们有一堆数据，画在图中是上图红色的那个样子，显然他像极了两个连在一起的山峰，也就是两个高斯分布的叠加。
假设在这个例子中，我们有：

Y 1 \sim N (μ 1, σ 21) Y 2 \sim N (μ 2, σ 22)

$Y_1 \sim N(\mu_1,\sigma_1^2) \ \ Y_2 \sim N(\mu_2,\sigma_2^2)$

Y = (1 - Δ) g 1 + Δ g 2

$Y=(1-\Delta)g_1+\Delta g_2$
这里的

Δ={0,1}而Pr(Δ=1)=π $\Delta=\{0,1\}而Pr(\Delta=1)=\pi$
定义

ϕθ(x)为变量是θ=(μ,σ2) $\phi_{\theta}(x)为变量是\theta=(\mu,\sigma^2)$ ，则上式的密度函数为：

g Y (y) = (1 - π) ϕ θ 1 (y) + π ϕ θ 2 (y)

$g_Y(y)=(1-\pi)\phi_{\theta_1}(y)+\pi\phi_{\theta_2}(y)$ ,
那么对于我们所有的N个测试数据集，对数极大似然函数为：

l (θ; z) = Σ N i = 1 l o g [(1 - π) ϕ θ 1 (y) + π ϕ θ 2 (y)]

$l(\theta;z)=\Sigma_{i=1}^Nlog[(1-\pi)\phi_{\theta_1}(y)+\pi\phi_{\theta_2}(y)]$
因为我们是一个双函数高斯函数，我们让我们的隐式变量（就是刚才式子里面的

Δ $\Delta$ ）从0或1中取值（刚好两类么），是0就是第一种高斯分布，是1 就是第二种，如果我们知道

Δi $\Delta_i$ 的值，也就是我们知道第i个高斯分布的参量我们知道怎么对应，那么上面那个公式可以改写成：

l(θ;z,Δ)=ΣNi=1log[(1−Δi)ϕθ1(yi)+Δiϕθ2(yi)]+ΣNi=1[(1−Δi)logπ+Δilog(1−π)] $l(\theta;z,\Delta)=\Sigma_{i=1}^Nlog[(1-\Delta_i)\phi_{\theta_1}(y_i)+\Delta_i\phi_{\theta_2}(y_i)]+\Sigma_{i=1}^N[(1-\Delta_i)log\pi+\Delta_ilog(1-\pi)]$
（此公式的推导思路，概率再乘上对应的

Δ $\Delta$ ，然后利用log 函数的性质求解）
下面就是推导过程中的重头戏了，我们刚才是假设我们知道每个高斯分布的权重，即

Δ $\Delta$ ,所以EM就是用来获得

Δ $\Delta$ ,从而我们可以用上式进行。定义：