EM learning

最新推荐文章于 2024-09-04 17:48:38 发布

learningWholeLife

最新推荐文章于 2024-09-04 17:48:38 发布

阅读量807

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/sjtu_edu_cn/article/details/49587299

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在机器学习问题中，经常需要根据采样数据，推测其分布。一般都要用到极大似然估计（maximum likelihood）。

比如对于一组数据{ $x_1, x_2, ..., x_m$ }，假设其分布函数是 $p(x|\theta)$ ，为了求出分布函数的参数 $\theta$ ，我们假设如果这个 $\theta$ 对应的分布函数最大，那么此时的分布函数就是这组数据的真实分布。这有种从结果推测原因的感觉。 $p(x|\theta)$ 中的 $\theta$ 是原因，是x符合的分布，因此我们采样数据才能够得到{ $x_1, x_2, ... , x_m$ }。但是现在我们为了推测 $\theta$ ，反而从观测数据开始反推。

极大似然估计算法推测 $\theta$ ，

θ = argmax θ p (x | θ)

$\theta=\operatorname*{argmax}_{\theta}p(x|\theta)$

但是对于比较复杂的模型，参数比较多，很难直接通过计算求出极大似然函数。所以就有了EM算法，通过迭代的方式，不断逼近极大似然函数。

EM算法的核心公式：

l (θ) = \sum i log p (x (i); θ) = \sum i log \sum z (i) p (x (i), z (i); θ) = \sum i log \sum z (i) Q (z (i) i) p ( x ( i ) , z ( i ) ; θ ) Q ( z ( i ) i ) \geq \sum i \sum z (i) Q (z (i) i) log p ( x ( i ) , z ( i ) ; θ ) Q ( z ( i ) i )

$\begin{align}l(\theta)&=\sum_i{\log p(x^{(i)};\theta)}\\&=\sum_i{\log}\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta)\\&=\sum_i{\log}\sum_{z^{(i)}}Q(z_i^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q(z_i^{(i)})}\\&\ge\sum_i\sum_{z^{(i)}}Q(z_i^{(i)})\log{\frac{p(x^{(i)},z^{(i)};\theta)}{Q(z_i^{(i)})}}\end{align}$

上面的推导中，用到了Jensen不等式，因为log函数是个凹函数。取等条件是 $\frac{p(x^{(i)},z^{(i)};\theta)}{Q(z_i^{(i)})}$ 为常数（关于 $\theta$ ）。