带你理解EM算法

Jie Qiao

已于 2023-05-08 20:39:38 修改

阅读量2k

点赞数 3

分类专栏：数据挖掘算法文章标签： EM算法 EM

于 2018-03-02 11:33:13 首次发布

本文链接：https://blog.csdn.net/a358463121/article/details/79421476

版权

数据挖掘同时被 2 个专栏收录

13 篇文章 8 订阅

订阅专栏

算法

13 篇文章 1 订阅

订阅专栏

实际上EM算法的思想常常出现在我们的日常生活中，我们在日常中也一定使用过EM算法。
举个例子，刚来到一个公司，你希望知道哪些行为（参数），可以最大化你的工资（目标函数），但是又因为你是新人所以有很多东西跟你工资的关系都不知道（比如员工，领导之间的关系，公司的文化等等），你唯一知道的就是在表明上的东西（观测变量），比如公司的规章制度等等，那么这时候你会怎么办呢？你或许会采取一种策略，先根据过去的经验来猜测这些隐藏因素对你工资的影响（E步），然后根据这些猜测来决定你采取什么行动（M步），当你采取完行动后，你又获得了一些经验，刷新了你对这些隐藏因素的看法，于是你修正你的想法（E步），再去优化你的行动（M步）直到最后收敛到一个最优值。

因此，形式化来讲，EM算法就是要最大化似然度来求得一个参数 $\theta$ 的最优值。但是，很多时候，当我们的模型中存在隐变量的时候（比如，一个词所属的主题，聚类问题中样本的类别, etc.），我们的似然度是很难求的。下面是该似然度的式子，其中z表示不可观测的变量，x表示可观测的变量，由于z是不可观测的，所以，要求似然度，我们必须要对z求和或求积分(连续的时候求积分，离散的时候求和)。

$\mathcal{L}( \theta ) =\sum ^{N}_{i=1}\log p( x_{i} |\theta ) =\sum ^{N}_{i=1}\log\left[\sum _{z_{i}} p( x_{i} ,z_{i} |\theta )\right]$
可以看到上面的这个式子，如果不存在隐变量的话，那么那个log是直接作用与p的，如果p恰好是指数族分布，那么这个似然度就非常好求，但是有隐变量的时候，log被一个 $\sum _{z}$ 给截断的，这就使得这个式子变得很难优化。

这个问题的关键在于， $\log p( x_{i} |\theta )$ 很难优化，但是 $x_{i} ,z_{i} |\theta )$ 却很好优化,比如说聚类的时候，你提前知道所有样本的类别了，那你计算每个类别的中心距离就太简单了，但是要优化 $x_{i} ,z_{i} |\theta )$ 的前提是，你要看得到隐变量的取值才行啊，然而隐变量是看不到的。EM算法通过一个巧妙的构造，让 $x_{i} ,z_{i} |\theta )$ 和似然度 $x_{i} |\theta )$ 的下界联系起来，这是我们只要优化下界就能代替优化似然度本身。

接下来我们看一下对于单个样本 $p( x_{i})$ 似然度的下界是什么东西。在这里我们引入了 $z_{i}$ 的分布 $q_{i}( z_{i})$

$\begin{aligned} \log p( x_{i} |\theta ) & =\log p( x_{i} ,z_{i}) -\log p( z_{i} |x_{i})\\ & =\log\left(\frac{p( x_{i} ,z_{i})}{q_{i}( z_{i})}\right) -\log\left(\frac{p( z_{i} |x_{i})}{q_{i}( z_{i})}\right)\\ & =\log p( x_{i} ,z_{i}) -\log q_{i}( z_{i}) -\log\left(\frac{p( z_{i} |x_{i})}{q_{i}( z_{i})}\right)\\ & =\int q_{i}( z_{i})\log p( x_{i} ,z_{i}) dz-\int q_{i}( z_{i})\log q( z_{i}) dz-\int q_{i}( z_{i})\log\left(\frac{p( z_{i} |x_{i})}{q_{i}( z_{i})}\right) dz( 两边同时对z求期望)\\ & =\underbrace{E_{z_{i}}(\log p( x_{i} ,z_{i})) -H( q_{i})}_{ELBO_{i}} +KL( q_{i}( z_{i}) ||p( z_{i} |x_{i})) \end{aligned}$
我们知道 $z_{i}) ||p( z_{i} |x_{i})) \geqslant 0$ ，所以这个似然度一定有
$\log p( x_{i}) \geqslant E_{z_{i}}(\log p( x_{i} ,z_{i})) -H( q_{i})$
可以看到对数似然度被分解成了两部分，一个是evidence lower bound(ELBO)，似然度的下界，另一个是KL距离，不管q是什么分布，这两部分加起来肯定是一样的。
这里写图片描述

图中的L是我们的ELBO。

也就是说，只要我们令KL距离为0，此时 $q (z) = p (z ∣ x)$ ，那么ELBO就等于似然度的值了。这就意味着我们最大化 $\theta$ 的时候，不再需要对 $\log p( x|\theta )$ 做，只需要找到 $\theta$ 使得这个ELBO最大不就相当于在“最大化我们的似然度”吗。而最大化这个ELBO太简单了，在这里 $H (q)$ 是q的熵，与 $\theta$ 无关只与分布q有关，所以不用管。于是我们把 $q (z) = p (z ∣ x)$ 代入到ELBO中得到
$\begin{aligned} ELBO_{i} & =E_{z_{i}}(\log p( x_{i} ,z_{i})) +const\\ & =\int q_{i}( z_{i})\log p( x_{i} ,z_{i}) dz+const\\ & =\int p( z_{i} |x_{i})\log p( x_{i} ,z_{i}) dz+const\\ & =\sum _{z_{i}} p( z_{i} |x_{i})\log p( x_{i} ,z_{i}) +const( 如果z是离散的) \end{aligned}$
这里写图片描述

EM算法，示意图，E步，把KL设为0，蓝色的线往上移，使得ELBO=似然度，M步，最大化ELBO，使得似然度增大，红色的线往上移，然后我们不断重复直到收敛。

考虑所有样本，正式的EM框架：

E步：把 $q_{i}( z_{i}) =p( z_{i} |x_{i})$ 代入到下界中，再把常数项剔除，
$Q\left( \theta ,\theta ^{t-1}\right) =\sum ^{N}_{i=1}\sum _{z_{i}} p( z_{i} |x_{i},\theta^{t-1})\log p( x_{i} ,z_{i},\theta)=\sum ^{N}_{i=1} E\left[\log p( x_{i} ,z_{i} |\theta ) |x_{i} ,\theta ^{t-1}\right]$
M步：最大化下界ELBO
$\theta ^{t} =\arg\max_{\theta } Q\left( \theta ,\theta ^{t-1}\right)$

M步2：我们还可以做MAP估计，只需要在Q加上参数的对数先验就可以轻松完成，E步没有任何变化
$\theta ^{t} =\arg\max_{\theta } Q\left( \theta ,\theta ^{t-1}\right) +\log p( \theta )$
在MAP估计的时候，不仅需要考虑下界的最大化，还需要考虑先验对参数的影响。

Jie Qiao

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
带你理解EM算法

很多时候，我们都要最大化似然度来求得一个参数θθ\theta 的最优值。但是，很多时候，当我们的模型中存在隐变量的时候（比如，一个词所属的主题，聚类问题中样本的类别, etc.），我们的似然度是很难求的。下面是该似然度的式子，其中z表示不可观测的变量，x表示可观测的变量，由于z是不可观测的，所以，要求似然度，我们必须要对z求和或求积分(连续的时候求积分，离散的时候求和)。L(θ)=∑i=1...
复制链接

扫一扫

专栏目录