EM算法原理

最新推荐文章于 2022-06-21 17:07:27 发布

Finley1991

最新推荐文章于 2022-06-21 17:07:27 发布

阅读量368

点赞数

分类专栏：算法学习 NLP学习笔记文章标签： EM算法无监督学习

原文链接：https://www.cnblogs.com/pinard/p/6912636.html

版权

NLP学习笔记同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

算法学习

6 篇文章 0 订阅

订阅专栏

EM算法原理

转载原文地址：https://www.cnblogs.com/pinard/p/6912636.html

EM算法也称期望最大化（Expectation-Maximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。

1. EM算法要解决的问题

我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。

但是在一些情况下，我们得到的观察数据有未观察到的隐含数据，此时我们未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢？这就是EM算法可以派上用场的地方了。

EM算法解决这个的思路是使用启发式的迭代方法，既然我们无法直接求出模型分布参数，那么我们可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解我们的模型参数（EM算法的M步)。由于我们之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是我们想要的结果。不过没关系，我们基于当前得到的模型参数，继续猜测隐含数据（EM算法的E步），然后继续极大化对数似然，求解我们的模型参数（EM算法的M步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

从上面的描述可以看出，EM算法是迭代求解最大值的算法，同时算法在每一次迭代时分为两步，E步和M步。一轮轮迭代更新隐含数据和模型分布参数，直到收敛，即得到我们需要的模型参数。

一个最直观了解EM算法思路的是K-Means算法，在K-Means聚类时，每个聚类簇的质心是隐含数据。我们会假设K个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

当然，K-Means算法是比较简单的，实际中的问题往往没有这么简单。上面对EM算法的描述还很粗糙，我们需要用数学的语言精准描述。

2. EM算法的推导

对于m个样本观察数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ 中，找出样本的模型参数θ, 极大化模型分布的对数似然函数如下：
$θ=\underset{\theta}{argmax}\sum_{i=1}^{m}logP(x^{(i)}|θ)$
如果我们得到的观察数据有未观察到的隐含数据 $z=(z^{(1)},z^{(2)},...z^{(m)})$ ，此时我们的极大化模型分布的对数似然函数如下：
$θ=\underset{\theta}{argmax}\sum_{i=1}^{m}logP(x^{(i)}|θ)=\underset{\theta}{argmax}\sum_{i=1}^{m}log\sum_{z(i)}P(x^{(i)},z^{(i)}|θ)$
上面这个式子是没有办法直接求出θ 的。因此需要一些特殊的技巧，我们首先对这个式子进行缩放如下：
$\sum_{i=1}^{m}log\sum_{z(i)}P(x^{(i)},z^{(i)}|θ)=\sum_{i=1}^{m}log\sum_{z(i)}Q_i(z^{(i)})\frac {P(x^{(i)},z^{(i)}|θ)}{Q_i(z^{(i)})} (1) \\\geq\sum_{i=1}^{m}\sum_{z(i)}Q_i(z^{(i)})log\frac {P(x^{(i)},z^{(i)}|θ)}{Q_i(z^{(i)})}(2)$
上面第(1)式引入了一个未知的新的分布 $Q_i(z^{(i)})$ ，第(2)式用到了Jensen不等式：
$log\sum_{j}λ_{j}y_{j}≥\sum_{j}λ_{j}logy_{j},λ_j≥0,\sum_jλ_j=1$
或者说由于对数函数是凹函数，所以有:
$f (E (x)) \geq E (f (x)), 如果 f (x) 是凹函数$
此时，如果要满足Jensen不等式的等号，则有：
$\frac {P(x^{(i)},z^{(i)}|θ)}{Q_i(z^{(i)})}=c,c为常数$
由于 $Q_i(z^{(i)})$ 是一个分布，所以满足：
$\sum_{z}Q_i(z^{(i)})=1$
从上面两式，我们可以得到：
$Q_i(z^{(i)})=\frac {P(x^{(i)},z^{(i)}|θ)}{\sum_{z}P(x^{(i)},z^{(i)}|θ)}=\frac {P(x^{(i)},z^{(i)}|θ)}{P(x^{(i)}|θ)}=P(z^{(i)}|x^{(i)},θ))$
如果 $Q_i(z^{(i)})=P(z^{(i)}|x^{(i)},θ))$ , 则第(2)式是我们的包含隐藏数据的对数似然的一个下界。如果我们能极大化这个下界，则也在尝试极大化我们的对数似然。即我们需要最大化下式：
$\underset{\theta}{argmax}\sum_{i=1}^{m}\sum_{z(i)}Q_i(z^{(i)})log\frac {P(x^{(i)},z^{(i)}|θ)}{Q_i(z^{(i)})}(3)$
(3)式等价为：
$\underset{\theta}{argmax}\sum_{i=1}^{m}(\sum_{z(i)}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|θ)}-\sum_{z(i)}Q_i(z^{(i)})log{Q_i(z^{(i)})})(4)$
去掉上式中为常数的部分(后面减掉的 $\sum_{z(i)}Q_i(z^{(i)})log{Q_i(z^{(i)})}$ )，这部分求 $\theta$ 过程中是不用考虑的。

则我们需要极大化的对数似然下界为：

$\underset{\theta}{argmax}\sum_{i=1}^{m}\sum_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|θ)} \\\underset{\theta}{argmax}\sum_{i=1}^{m}\sum_{z^{(i)}}P(z^{(i)}|x^{(i)},θ))log{P(x^{(i)},z^{(i)}|θ)}$
上式也就是我们的EM算法的M步，那E步呢？注意到上式中 $Q_i(z^{(i)})$ 是一个分布，因此 $\sum_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)},z^{(i)}|θ)}$ 可以理解为 $log{P(x^{(i)},z^{(i)}|θ)}$ 基于条件概率分布 $Q_i(z^{(i)})$ 的期望。

至此，我们理解了EM算法中E步和M步的具体数学含义。

3. EM算法流程

现在我们总结下EM算法的流程。

输入：

观察数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ ，联合分布 $P (x, z; θ)$ , 条件分布 $P (z ∣ x, θ)$ , 最大迭代次数 J 。

随机初始化模型参数* $θ$ * 的初值 $θ_0$ 。
for j from 1 to J开始EM算法迭代：

a) E步：计算联合分布的条件概率期望：
$Q_i(z^{(i)})=P(z^{(i)}|x^{(i)},θ^j)) \\ L(θ,θ^j )=\sum_{i=1}^m\sum_{z^{(i)}}Q_i(z^{(i)})logP(x^{(i)},z^{(i)}|θ)$
　　b) M步：极大化 $L(θ,θ^j)$ ,得到 $θ^{j+1}$ :
$θ^{j+1}=\underset{\theta}{argmax}L(θ,θ^{j})$
　　　　　　c) 如果 $θ^{j+1}$ 已收敛，则算法结束。否则继续回到步骤a)进行E步迭代。

输出：模型参数θ。

4. EM算法的一些思考

如果我们从算法思想的角度来思考EM算法，我们可以发现我们的算法里已知的是观察数据，未知的是隐含数据和模型参数，在E步，我们所做的事情是固定模型参数的值，优化隐含数据的分布，而在M步，我们所做的事情是固定隐含数据分布，优化模型参数的值。比较下其他的机器学习算法，其实很多算法都有类似的思想。

Finley1991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法原理

EM算法原理转载原文地址：https://www.cnblogs.com/pinard/p/6912636.htmlEM算法也称期望最大化（Expectation-Maximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。1. EM算法要解决的问题我们经常会从样本观察...
复制链接

扫一扫