GMM的EM算法推导

最新推荐文章于 2021-09-19 10:51:36 发布

SilD

最新推荐文章于 2021-09-19 10:51:36 发布

阅读量3.6k

点赞数 2

分类专栏： FV-FK

本文链接：https://blog.csdn.net/qq_28572673/article/details/53889436

版权

FV-FK 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、样本说明

对于一组样本X={xt,t=1,2,...,T}，xt符合i.i.d(独立同分布)，于是就有：
$p(X;\theta )=\prod_{t=1}^{T}p(x_{t};\theta)$ --------------------1
取对数（连乘的运算较联和复杂得多，所以用取对数进行简化）：
$L(X;\theta )=ln[p(X;\theta )]=\sum_{t=1}^{T}ln[p(x_{t};\theta)]$ --------------------2
其中θ为xt的特征参数。

2、EM算法推导

对于样本，我们想找到每个样例隐含的类别z，能使得p(x,z)最大，直接对θ进行求解比较困难,对隐含变量z求解会简单的多。

EM是一种解决存在隐含变量优化问题的有效方法。既然不能直接最大化L(X;θ)，我们可以不断地建立L(X;θ)的下界（E步），然后优化下界（M步）。具体如下：

对于每个样例，用Qt表示该样例的隐含变量z的某种分布，Qt满足∑Qt(z)=1，Qt(z)>=0（如果Qt是连续的概率密度函数，则求和变积分）。

上1、2式有：

$L(X;\theta )=\sum_{t=1}^{T}ln[p(x_{t};\theta )]=\sum_{t=1}^{T}ln[\sum_{k=1)}^{K}Q_{t}(z_{k})\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}]$ $\geq\sum_{t=1}^{T}\sum_{k=1)}^{K}Q_{t}(z_{k})ln[\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}]$ -------------------3，

对于上3式，利用了Jensen不等式：

{

如果f为凸函数（存在二阶导数且≤0），那么f(E[x])≤E[f(x)]，当且仅当x为常数时等式成立。

在上3式中，由于∑Qt(z)=1，Qt(z)>=0，则

$\sum_{k=1}^{K}{Q_{t}(z_{k})}[\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}]$ 即为 $[\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}]$ 的期望

}

我们想要等号成立，必须使

$\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}=c$ （C为常数）。

又∑Qt(z)=1，Qt(z)>=0，再根据贝叶斯概率公式（ $p(w|x)=\frac{p(x|w)}{\sum p(x)}$ ）得：

$\frac{p_{k}(x_{t},z_{k};\theta )}{Q_{t}(z_{k})}=c\Rightarrow\frac{p_{k}(x_{t},z_{k};\theta )}{c}=Q_{t}(z_{k})\Rightarrow \frac{\sum_{k=1}^{K}p_{k}(x_{t},z_{k};\theta )}{c}=\sum_{k=1}^{K}Q_{t}(z_{k})$

$\sum_{k=1}^{K}p_{k}(x_{t},z_{k};\theta )=c \Rightarrow {Q_{t}(z_{k})}=\frac{p_{k}(x_{t},z_{k};\theta )}{\sum_{k=1}^{K}p_{k}(x_{t},z_{k};\theta )}$ -------------------4，

得（已知xk情况下zk的后验概率）：

${Q_{t}(z_{k})}=\frac{p_{k}(x_{t},z_{k};\theta )}{\sum_{k=1}^{K}p_{k}(x_{t},z_{k};\theta )}=p_{k}(z_{k}|x_{k};\theta )$

这样就解决了Qt(z)的选值问题。

循环至收敛

{

E-step：选择Qt(z)，建立L(X;θ)的下界，对于每个xt计算： ${Q_{t}(z_{k})}=p_{k}(z_{k}|x_{k};\theta )$ ；-------------------5

M-step：给定Qt(z)，调整θ去极大化L(X;θ)的下界： $\theta =arg max\sum_{t=1}^{T}\sum_{k=1}^{K} Q_{t}(z_{k})ln\frac{p(x_{t},z_{k};\theta )}{ Q_{t}(z_{k})}$ -------------------6

}

对于EM算法收敛的求证这里不做证明，主要参考博文请戳这里（EM算法）。

3、GMM

GMM（Gaussian Mixture Model）高斯混合模型，是一种用有限个高斯混合模型进行概率密度函数逼近的方法，每个 Gaussian 称为一个“Component”，这些 Component 线性加成在一起就组成了 GMM 的概率密度函数：

$p(x_{t};\theta )]=\sum_{k=1}^{K}w_{k}N_{k}(x_{t};\theta)$ --------------------7

$N_{k}(x_{t};\theta)=\frac{e^{-\frac{1}{2}}(x_{t}-u_{k})^{T}\Sigma ^{-1}(x_{t}-u_{k})}{(2\pi )^\frac{D}{2}(|\Sigma |)^\frac{1}{2}}$ --------------------8

其中，wk表示权值，uk表示均值，∑k表示方差，并： $\sum_{k=1}^{K}w_{k}=1$

得完整表达式：

$L(X;\theta )=\sum_{t=1}^{T}ln[p(x_{t};\theta )]=\sum_{t=1}^{T}ln[\sum_{k=1)}^{K}w_{k}\frac{e^{-\frac{1}{2}[(x_{t}-u_{k})^T\Sigma ^-1(x_{t}-u_{k})]}}{(2\pi )^\frac{D}{2}|\Sigma|^\frac{1}{2} }]$ -------------------9

由于在对数函数里面又有加和，我们没法直接用求导解方程的办法直接求得最大值。为了解决这个问题，我们采取EM算法。

循环至收敛
{

1、E-step：估计数据由每个 Component 生成的概率（并不是每个 Component 被选中的概率）：对于每个数据 x_t来说，它由第 k 个 Component 生成的概率为：

$\gamma (t,k)=\frac{w_{k}N_{k}(x_{t};u_{k},\Sigma _{k})}{\sum_{j=1}^{K}w_{j}N_{j}(x_{t};u_{j},\Sigma _{j})}$

即 ${Q_{t}(z_{k})}=p_{k}(z_{k}|x_{k};\theta )$

由于式子里的 uk和∑k也是需要我们估计的值，采用迭代法，在计算r(t,k) 的时候我们假定uk和∑k均已知，取为上一次迭代所得的值（或者初始值）。

2、M-step：估计每个 Component 的参数：现在我们假设上一步中得到的r(t,k) 就是正确的”数据 xt由 Component 生成的概率”，亦可以当做该 Component在生成这个数据上所做的贡献。由于每个 Component 都是一个标准的 Gaussian 分布，可以很容易分布求出最大似然所对应的参数值θ={Wk，Uk，∑k}。

对于似然函数，对参数求偏导

$L(X;\theta )=\sum_{t=1}^{T}ln[p(x_{t};\theta )]=\sum_{t=1}^{T}ln[\sum_{k=1)}^{K}w_{k}\frac{e^{-\frac{1}{2}[(x_{t}-u_{k})^T\Sigma ^-1(x_{t}-u_{k})]}}{(2\pi )^\frac{D}{2}|\Sigma|^\frac{1}{2} }]$

（1）对于uk一阶导（省去无关项）:

$\frac{\partial L(X;\theta )}{\partial u_{k}}=\frac{\partial }{\partial u_{k}}\sum_{t=1}^{T}\sum_{k=1}^{K}\gamma(t,k)[-\frac{1}{2}(x_{t}-u_{k}^T\Sigma ^{-1}(x_{t}-u_{k}))]=\sum_{t=1}^{T}\gamma (t,k)[\frac{x_{t}-u_{k}}{\Sigma }]$

偏导等于0时解得：

$u_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)x_{t}}{\sum_{t=1}^{T}\gamma (t,k)}$

（2）对于wk一阶导（省去无关项）:

$\frac{\partial L(X;\theta )}{\partial w_{k}}=\frac{\partial }{\partial w_{k}}\sum_{t=1}^{T}\sum_{k=1}^{K}\gamma(t,k)ln[w_{k}]$

由于 $\sum_{k=1}^{K}w_{k}=1$ ，Wk≥0，构造拉格朗日算子

$L(X;w_{k})=\sum_{t=1}^{T}\sum_{k=1}^{K}\gamma(t,k)ln[w_{k}]+\beta (\sum_{k=1}^{K}w_{k}-1)$

$\frac{\partial L(X;\theta )}{\partial w_{k}}=\frac{\partial }{\partial w_{k}}[\sum_{t=1}^{T}\sum_{k=1}^{K}\gamma(t,k)ln[w_{k}]+\beta (\sum_{k=1}^{K}w_{k}-1)]=\sum_{t=1}^{T}\frac{\gamma (t,k)}{w_{k}}+\beta$

偏导等于0时解得：

$w_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)}{-\beta }$

再次使用 $\sum_{k=1}^{K}w_{k}=1$ ，得到：

$-\beta =\sum_{t=1}^{T}\sum_{k=1}^{K}\gamma (t,k)=m$

进而得到：

$w_{k}=\frac{1}{m}\sum_{t=1}^{T}\gamma (t,k)$

（3）对于∑k一阶导（同理，但矩阵运算过复杂）:

$\Sigma_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)(x_{t}-u_{k})(x_{t}-u_{k})^{T}}{\sum_{t=1}^{T}\gamma (t,k)}$

（4）总结一下，M-step获得：

{

$w_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)}{-\beta }$ ， $u_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)x_{t}}{\sum_{t=1}^{T}\gamma (t,k)}$ ， $\Sigma_{k}=\frac{\sum_{t=1}^{T}\gamma (t,k)(x_{t}-u_{k})(x_{t}-u_{k})^{T}}{\sum_{t=1}^{T}\gamma (t,k)}$

}

到此即求出GMM的EM的优化解法。