EM算法总结：从 ELBO + KL散度出发

最新推荐文章于 2023-12-18 21:37:45 发布

Zicon in广工

最新推荐文章于 2023-12-18 21:37:45 发布

阅读量1.4k

点赞数 4

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43753525/article/details/110835136

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文的整体流程如下：

第一章首先简要介绍一下EM算法的目的是为了求解带有隐变量的参数估计问题，并给出E步和M步的数学形式；
第二章证明了EM算法的收敛性；
第三章从ELBO+KL散度的角度，对EM算法进行推导，并给出图示以便理解EM的迭代流程；
第四章通过对E步的改进，将上述的狭义EM拓展到广义的EM；
第五章点明广义EM的本质其实就是坐标上升法，并提到了它的几个变种。

一、概述

假设有如下数据：

X : observed data

Z : latent variable

(X,Z) : complete data

$\theta$ : parameter

首先我们明确一下为什么需要EM算法？从本质上来说，EM算法的目的是为了学习参数 $\theta$ ，那么MLE也是学习参数 $\theta$ 的一个方法，为什么还需要引出EM算法呢？

这是因为数据分布 $P (X)$ 有时候非常复杂，我们没办法直接通过MLE去求得令似然最大的 $\theta$ ，因此引入隐变量 Z，假定 X 是由 Z 产生的，而 Z 的分布是我们自己可以假设的，从而引入归纳偏置，简化了参数的求解。即是说，EM算法解决了概率生成模型/带有隐变量的参数估计问题。

公式表示为：
在这里插入图片描述
其中，①即为E步，②即为M步

二、收敛性证明

以下两个定理能够保证EM算法的收敛性：
在这里插入图片描述

这里主要证明一下定理9.1：

在这里插入图片描述

三、算法的导出

这里主要从 ELBO + KL散度的角度进行EM算法的推导：

在这里插入图片描述

下图形象解释了E步和M步的流程：

在这里插入图片描述

四、广义EM

上述的EM其实是狭义的EM：在E步中，我们令 $q(z)=P(z|x,\theta)$ ，使得 KL散度为0，但是有时候后验 $P(z|x,\theta)$ 是无法求解的，因此我们只能对条件做一点松弛，即由 KL散度等于零转变为 argmin KL(q||p)，相当于argmax ELBO

因此我们将狭义EM推广到了广义的EM，其流程如下：
在这里插入图片描述

可以发现，狭义的EM其实只是广义EM的一种特例（当KL散度可以为0的时候），而广义EM其实就是变分推断的起源。

五、EM的推广

5.1 EM的本质

从广义EM我们知道，E步是固定 $\theta$ 求解q，M步是固定q求解 $\theta$ ，这里的思想其实就是坐标上升法。因此，在广义EM中，对E步和M步的顺序其实是没有要求的

5.2 EM的推广

EM更应该说是一种思想，而非某个具体的模型。在广义EM中，我们无法直接求出后验 $P(z|x,\theta)$ ，因此只能通过变分推断或者MCMC去找到一个尽量接近后验 $P(z|x,\theta)$ 的 $q (z)$ 。因此EM有诸多变种，例如：

基于平均场理论的变分推断的EM：VBEM/VEM
基于蒙特卡洛的EM：MCEM

六、参考资料

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
EM算法总结：从 ELBO + KL散度出发

一、概述假设有如下数据：X : observed dataZ : latent variable(X,Z) : complete dataθ\thetaθ : parameterEM算法的目的是解决解决带有隐变量的参数估计问题(MLE,MAP)，从 ELBO + KL 散度角度来看，EM算法主要是迭代以下两个步骤：二、收敛性证明以下两个定理能够保证EM算法的收敛性：这里主要证明一下定理9.1：三、算法的导出这里主要从 ELBO + KL散度的角度进行EM算法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。