EM算法：期望最大化算法

最新推荐文章于 2023-10-07 10:38:51 发布

执着的蜗牛慢慢来

最新推荐文章于 2023-10-07 10:38:51 发布

阅读量257

点赞数 1

分类专栏：统计机器学习文章标签：机器学习统计学算法

本文链接：https://blog.csdn.net/qq_21906523/article/details/110732452

版权

统计机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

EM算法：期望最大化算法

MLE（极大似然估计法）是一种非常有效的参数估计方法，但在概率模型中，有时既含有观测变量 (observable variable), 又含有隐变量(hidden variable)或潜在变量(latent variable)，例如：分布中有多余参数或数据为截尾或缺失时，这个时候使用MLE求解是比较困难的。于是Dempster等人于1977年提出了EM算法，其出发点是把求MLE的过程分两步走，第一步是求期望，以便把多余的部分去掉，第二步是求极大值。

我们给定数据和参数:
$\ \text{observed data}$
$z:\ \text{unobserved data } ,$ 也就是隐变量
$\left( x,\ z \right) :\ \text{complete data}$
$\theta :\ \text{parameter}$

EM 算法对这个问题的解决方法是采用迭代的方法，这里直接给出最终的公式
$\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z p(z|x,\theta^t)\log p(x,z|\theta)dz=\mathop{argmax}\limits_{\theta}\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]$

后面再说明这个式子是从何得来的。

这个公式包含了迭代的两步：
E step：计算 $\log p(x,z|\theta)$ 在概率分布 $p(z|x,\theta^t)$ 下的期望
M step：计算使这个期望最大化的参数得到下一个 EM 步骤的输入

对于上述算法求解过程，似然函数在每一步迭代的过程中都是在增大的，除非已经达到最大值，证明如下。

求证： $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$

证明：
我们知道
$\log p(x|\theta)=\log p(z,x|\theta)-\log p(z|x,\theta)$ 在 $p(z|x,\theta^t)$ 概率下对左右两边求期望：
$左边=\int_zp(z|x,\theta^t)\log p(x|\theta)dz=\log p(x|\theta)$

$右边=\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz-\int_zp(z|x,\theta^t)\log p(z|x,\theta)dz=Q(\theta,\theta^t)-H(\theta,\theta^t)$

所以：
$\log p(x|\theta)=Q(\theta,\theta^t)-H(\theta,\theta^t)$
由于 $Q(\theta,\theta^t)=\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz,$
而 $\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_zp(z|x,\theta^t)\log p(x,z|\theta)dz=\mathop{argmax}\limits_{\theta}Q(\theta,\theta^t),$
所以 $Q(\theta^{t+1},\theta^t)\ge Q(\theta^t,\theta^t).$
这时要证 $\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$ ，只需证： $H(\theta^t,\theta^t)\ge H(\theta^{t+1},\theta^t)$ ：

即 $H(\theta^t,\theta^t)\ge H(\theta^{t+1},\theta^t)$
综上我们得证
$\log p(x|\theta^t)\le\log p(x|\theta^{t+1})$

进一步，我们来看EM 迭代过程是如何得来的

$\log p(x|\theta)=\log p(z,x|\theta)-\log p(z|x,\theta)=\log \frac{p(z,x|\theta)}{q(z)}-\log\frac{p(z|x,\theta)}{q(z)}$

在概率分布 $q (z)$ 下，对上式左右两边求期望 $\mathbb{E}_{q(z)}$ ：
插入公式总是报错，这里图片代替

其中 $ELBO=\int_zq(z)\log \frac{p(z,x|\theta)}{q(z)}dz，$
$E L B O$ 的全称是Evidence lower bound，我们知道 $KL(q(z)||p(z|x,\theta))\ge 0$ ，所以

$\log p(x|\theta)\ge ELBO,$

在 $KL(q(z)||p(z|x,\theta))= 0$ ，上式取等号，即： $q(z)=p(z|x,\theta)$ ，EM 算法的目的是将 ELBO 最大化，根据上面的证明过程，在每一步 EM 后，求得了最大的 $E L B O$ ，并将这个使 $ELBO $最大的参数代入下一次迭代中，这时便有
$\hat{\theta}=\mathop{argmax}_{\theta}ELBO= \mathop{argmax}_\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz$

由于 $q(z)=p(z|x,\theta^t)$ 的时候，最大值才能取等号，所以

$\hat{\theta}=\mathop{argmax}_{\theta}ELBO=\mathop{argmax}_\theta\int_zq(z)\log\frac{p(x,z|\theta)}{q(z)}dz=\mathop{argmax}_\theta\int_zp(z|x,\theta^t)\log\frac{p(x,z|\theta)}{p(z|x,\theta^t)}d z\\ =\mathop{argmax}_\theta\int_z p(z|x,\theta^t)\log p(x,z|\theta)dz$
我们就得到了开始给出的EM算法迭代式。

从 Jensen 不等式出发，也可以导出上式：

$(x|\theta) =\log\int_zp(x,z|\theta)dz=\log\int_z\frac{p(x,z|\theta)q(z)}{q(z)}dz\\ =\log \mathbb{E}_{q(z)}[\frac{p(x,z|\theta)}{q(z)}]\ge \mathbb{E}_{q(z)}[\log\frac{p(x,z|\theta)}{q(z)}]$
右边的式子便是我们上面的 $E L B O$ ，等号在 $ \frac{p(x,z|\theta)}{q(z)} =C$ 时成立。这里 $C$ 是常数，于是：

$\int_zq(z)dz=\frac{1}{C}\int_zp(x,z|\theta)dz=\frac{1}{C}p(x|\theta)=1\\$
即 $p(x|\theta)=C$ , 另外我们知道 $p(x,z|\theta)=Cq(z)$ , 所以
$\frac{Cq(z)}{C} =\frac{1}{p(x|\theta)}p(x,z|\theta)=p(z|x,\theta)$