机器学习——期望最大（EM）

DCGJ666

已于 2022-05-22 18:25:19 修改

阅读量268

点赞数

分类专栏：深度学习文章标签：机器学习概率论算法

于 2022-05-22 16:26:46 首次发布

本文链接：https://blog.csdn.net/DCGJ666/article/details/124911290

版权

深度学习专栏收录该内容

39 篇文章 1 订阅

订阅专栏

机器学习——期望最大（EM）

期望最大算法的目的是解决具有隐变量的混合模型的参数估计（极大似然估计）。MLE对

p(x|\theta)

参数的估计记为：

\theta_{MLE}=argmax_{\theta}logp(x|\theta)

。EM算法对这个问题的解决方法是采用迭代的方法：

\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz=\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]

这个公式包含了迭代的两步：

E step: 计算 $logp(x,z|\theta)$ 在概率分布 $\theta^t)$ 下的期望
M step: 计算使这个期望最大化的参数得到下一个EM步骤的输入
求证： $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$
证明： $\log p(x|\theta)=\log p(z,x|\theta)-\log p(z|x,\theta)$ ,对左右两边求积分：
$Left:\int_zp(z|x,\theta^t)\log p(x|\theta)dz=\log p(x|\theta)$
$Right:\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz-\int_zp(z|x,\theta^t)\log p(z|x,\theta)dz=Q(\theta,\theta^t)-H(\theta,\theta^t)$
所以：
$\log p(x|\theta)=Q(\theta,\theta^t)-H(\theta,\theta^t)$
由于 $Q(\theta,\theta^t)=\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz$ ,而 $\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz$ ，所以 $Q(\theta^{t+1},\theta^t)\ge Q(\theta^t,\theta^t)$ 。要证 $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$ ，需证： $H(\theta^t,\theta^t)\ge H(\theta^{t+1},\theta^t)$ ：
$H(\theta^{t+1},\theta^t)-H(\theta^{t},\theta^t)=\int_zp(z|x,\theta^{t})\log p(z|x,\theta^{t+1})dz-\int_zp(z|x,\theta^t)\log p(z|x,\theta^{t})\\ =\int_zp(z|x,\theta^t)\log\frac{p(z|x,\theta^{t+1})}{p(z|x,\theta^t)}=-KL(p(z|x,\theta^t),p(z|x,\theta^{t+1}))\le0$
综上上面的结果：
$\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$
根据上面的证明，我们看到，似然函数在每一步都会增大。进一步的，我们看EM迭代过程中的式子是怎么来的：
$\log p(x|\theta)=\log p(z,x|\theta)-\log p(z|x,\theta)=\log \frac{p(z,x|\theta)}{q(z)}-\log \frac{p(z|x,\theta)}{q(z)}$
分别对两边求期望 $\mathbb{E}_{q(z)}$ ：
$Left:\int_zq(z)\log p(x|\theta)dz=\log p(x|\theta)\\ Right:\int_zq(z)\log \frac{p(z,x|\theta)}{q(z)}dz-\int_zq(z)\log \frac{p(z|x,\theta)}{q(z)}dz=ELBO+KL(q(z),p(z|x,\theta))$
上式中，Evidence Lower Bound(ELBO),是一个下界，所以 $logp(x|\theta)\ge{ELBO}$ ，等于号取在KL散度为0是，即： $q(z)=p(z|x,\theta)$ ，EM算法的目的是将ELBO最大化，根据上面的证明过程，在每一步EM后，求得了最大的ELBO，并根据这个使ELBO最大的参数代入下一步中：
$\hat{\theta}=\mathop{argmax}_{\theta}ELBO=\mathop{argmax}_\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz$
由于$ q(z)=p(z|x,\theta^t)$的时候，这一步的最大值才能取等号，所以：
$\hat{\theta}=\mathop{argmax}_{\theta}ELBO=\mathop{argmax}_\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz=\mathop{argmax}_\theta\int_zp(z|x,\theta^t)\log\frac{p(x,z|\theta)}{p(z|x,\theta^t)}d z\\ =\mathop{argmax}_\theta\int_z p(z|x,\theta^t)\log p(x,z|\theta)$
这个式子就是上面EM迭代过程中的式子。
从Jensen不等式出发，也可以导出这个式子：
$\log p(x|\theta)=\log\int_zp(x,z|\theta)dz=\log\int_z\frac{p(x,z|\theta)q(z)}{q(z)}dz\\ =\log \mathbb{E}_{q(z)}[\frac{p(x,z|\theta)}{q(z)}]\ge \mathbb{E}_{q(z)}[\log\frac{p(x,z|\theta)}{q(z)}]$
其中，右边的式子就是ELBO，等号在$ p(x,z|\theta)=Cq(z)$时成立。于是：
$\int_zq(z)dz=\frac{1}{C}\int_zp(x,z|\theta)dz=\frac{1}{C}p(x|\theta)=1\\ \Rightarrow q(z)=\frac{1}{p(x|\theta)}p(x,z|\theta)=p(z|x,\theta)$
我们发现，这个过程就是上面的最大值取等号的条件。

广义EM

EM模型解决了概率生成模型的参数估计的问题，通过引入隐变量z，来学习 $\theta$ ，具体的模型对z有不同的假设。对学习任务 $p(x|\theta)$ ，就是学习任务 $\frac{p(x,z|\theta)}{p(z|x,\theta)}$ 。在这个式子中，我们假定了在E步骤中， $q(z)=p(z|x,\theta)$ ，但是这个p(z|x,\theta)如果无法求解，那么必须使用采样（MCMC）或者变分推断等方法来近似推断这个后验。我们观察KL散度的表达式，为了最大化ELBO，在固定的 $\theta$ 时，我们需要最大化KL散度，于是：
$\hat{q}(z)=\mathop{argmin}_qKL(p,q)=\mathop{argmax}_qELBO$
这就是广义EM的基本思路：

E step:
$\hat{q}^{t+1}(z)=\mathop{argmax}_q\int_zq^t(z)\log\frac{p(x,z|\theta)}{q^t(z)}dz,fixed\ \theta$
M step:
$\hat{\theta}=\mathop{argmax}_\theta \int_zq^{t+1}(z)\log\frac{p(x,z|\theta)}{q^{t+1}(z)}dz,fixed\ \hat{q}$
对于上面的积分：
$ELBO=\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz=\mathbb{E}_{q(z)}[p(x,z|\theta)]+Entropy(q(z))$
因此，我们看到，广义EM相当于在原来的式子中加入熵这一项。

EM的推广

EM算法类似于坐标上升法，固定部分坐标，优化其他坐标，再一遍一遍的迭代。如果在EM框架中，无法求解z后验概率，那么需要采用一些变种的EM来估算这个后验。

基于平均场的变分推断， VBEM、VEM
基于蒙特卡洛的EM，MCEM

总结

EM算法是迭代求解最大值的算法，同时算法在每一次迭代时分为两步，E步和M步。一轮轮迭代更新隐含数据和模型分布参数，直至收敛，即得我们需要的模型参数。
一个最直观了解EM算法思路的是K-means算法。在K-Means聚类时，每个聚类簇的质心是隐含数据。我们会假设K个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

DCGJ666

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——期望最大（EM）

机器学习——期望最大（EM）广义EMEM的推广期望最大算法的目的是解决具有隐变量的混合模型的参数估计（极大似然估计）。MLE对p(x∣θ)p(x|\theta)p(x∣θ)参数的估计记为：θMLE=argmaxθlogp(x∣θ)\theta_{MLE}=argmax_{\theta}logp(x|\theta)θMLE=argmaxθlogp(x∣θ)。EM算法对这个问题的解决方法是采用迭代的方法：θt+1=argmaxθ∫zlog⁡[p(x,z∣θ)]p(z∣x,θt)dz=Ez∣x,θt[lo
复制链接

扫一扫