机器学习系列：期望最大（EM）算法

最新推荐文章于 2022-01-06 17:08:13 发布

不一样的等待12305

最新推荐文章于 2022-01-06 17:08:13 发布

阅读量284

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_39068872/article/details/105159898

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1. 期望最大

期望最大算法的目的是解决具有隐变量的混合模型的参数估计（极大似然估计）MLE 对 $p(x|\theta)$ 参数的估计记为： $\theta_{MLE}=\mathop{argmax}\limits_\theta\log p(x|\theta)$ 。EM 算法对这个问题的解决方法是采用迭代的方法： $\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz=\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]$ 这个公式包含了迭代的两步：

E step：计算 $\log p(x,z|\theta)$ 在概率分布 $p(z|x,\theta^t)$ 下的期望
M step：计算使这个期望最大化的参数得到下一个 EM 步骤的输入

只要 $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$ ，那么就可以说，通过迭代，上式子会收敛到一个稳定的值，于是需要证明： $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$

$Right:\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz-\int_zp(z|x,\theta^t)\log p(z|x,\theta)dz=Q(\theta,\theta^t)-H(\theta,\theta^t)$
注意式子中的 $z$ 写成 $z(\theta^t)$ 更加合适

所以： $\log p(x|\theta)=Q(\theta,\theta^t)-H(\theta,\theta^t)$ 由于 $Q(\theta,\theta^t)=\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz$ ，而 $\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz$ ，所以 $Q(\theta^{t+1},\theta^t)\ge Q(\theta^t,\theta^t)$ 。要证 $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$ ，需证： $H(\theta^t,\theta^t)\ge H(\theta^{t+1},\theta^t)$ ： $\begin{aligned}H(\theta^{t+1},\theta^t)-H(\theta^{t},\theta^t)&=\int_zp(z|x,\theta^{t})\log p(z|x,\theta^{t+1})dz-\int_zp(z|x,\theta^t)\log p(z|x,\theta^{t})dz\\ &=\int_zp(z|x,\theta^t)\log\frac{p(z|x,\theta^{t+1})}{p(z|x,\theta^t)}=-KL(p(z|x,\theta^t),p(z|x,\theta^{t+1}))\le0 \end{aligned}$ 综合上面的结果： $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$

上面的式子证明EM算法写成上述式子会收敛，下面证明为什么要写成上面的式子,通常有两种证明方法

利用KL散度和ELBO下界
$\log p(x|\theta)=\log p(z,x|\theta)-\log p(z|x,\theta)=\log \frac{p(z,x|\theta)}{q(z)}-\log \frac{p(z|x,\theta)}{q(z)}$ 分别对两边求期望 $\mathbb{E}{q(z)}$ ： $\begin{aligned} &Left:\int_zq(z)\log p(x|\theta)dz=\log p(x|\theta)\\ &Right:\int_zq(z)\log \frac{p(z,x|\theta)}{q(z)}dz-\int_zq(z)\log \frac{p(z|x,\theta)}{q(z)}dz=ELBO+KL(q(z),p(z|x,\theta)) \end{aligned}$ 上式中，Evidence Lower Bound(ELBO)，是一个下界，所以 $\log p(x|\theta)\ge ELBO$ ，等于号取在 KL 散度为0是，即：
$q(z)=p(z|x,\theta)$ ，EM 算法的目的是将 ELBO 最大化，根据上面的证明过程，在每一步 EM 后，求得了最大的ELBO，并根据这个使 ELBO 最大的参数代入下一步中： $\hat{\theta}=\mathop{argmax}_{\theta}ELBO=\mathop{argmax}_\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz$ 由于 $q(z)=p(z|x,\theta^t)$ 的时候，这一步的最大值才能取等号，所以： $\hat{\theta}=\mathop{argmax}{\theta}ELBO=\mathop{argmax}\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz=\mathop{argmax}\theta\int_zp(z|x,\theta^t)\log\frac{p(x,z|\theta)}{p(z|x,\theta^t)}d z\ =\mathop{argmax}_\theta\int_z p(z|x,\theta^t)\log p(x,z|\theta)$ 这个式子就是上面 EM 迭代过程中的式子。
从 Jensen 不等式出发，也可以导出这个式子：
$\log p(x|\theta)=\log\int_zp(x,z|\theta)dz=\log\int_z\frac{p(x,z|\theta)q(z)}{q(z)}dz\ =\log \mathbb{E}{q(z)}[\frac{p(x,z|\theta)}{q(z)}]\ge \mathbb{E}{q(z)}[\log\frac{p(x,z|\theta)}{q(z)}]$
要想Jensen不等式取等号，需要让 $log{f(x)}$ 为常数，所以需要让其中，等号在 $p(x,z|\theta)=Cq(z)$ 时成立，右边的式子就是 ELBO。于是： $\int_zq(z)dz=\frac{1}{C}\int_zp(x,z|\theta)dz=\frac{1}{C}p(x|\theta)=1\ \Rightarrow q(z)=\frac{1}{p(x|\theta)}p(x,z|\theta)=p(z|x,\theta)$ 我们发现，这个过程就是上面的最大值取等号的条件。

2 总结

我们给出了EM算法的公式
$\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz=\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]$
并且有两个证明：

证明了这个公式的可行性
证明了为什么公式要写成这个样子，这部分用两个方法证明的a.ELBO下界 b.Jenson不等式

不一样的等待12305

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列：期望最大（EM）算法

1. 期望最大期望最大算法的目的是解决具有隐变量的混合模型的参数估计（极大似然估计）MLE 对 p(x∣θ)p(x|\theta)p(x∣θ) 参数的估计记为：θMLE=argmaxθlog⁡p(x∣θ)\theta_{MLE}=\mathop{argmax}\limits_\theta\log p(x|\theta)θMLE=θargmaxlogp(x∣θ)。EM 算法对这个问题的解决方法...
复制链接

扫一扫