【2019.11.27】EM算法详细推导

最新推荐文章于 2023-08-12 10:25:34 发布

Sailist

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量478

点赞数 4

分类专栏：统计学习方法文章标签： EM算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sailist/article/details/103274855

版权

统计学习方法专栏收录该内容

3 篇文章 1 订阅

订阅专栏

EM算法

无隐变量下，极大似然函数为：
$L(\theta) = \prod_iP\left(x^{i};\theta\right)$

含隐变量时候，变为：
$L(\theta,z)=\prod_i\sum_jP(x^{i},z^{i};\theta)$

取对数似然：
$lnL(\theta,z)=\sum_i\left[log\left(\sum_jP(x^{i},z^{j};\theta)\right)\right]$

其中，极大化该似然函数的主要困难是包含未观测数据和包含和的对数，因此不寻找其解析解，转为寻找其数值解。

EM算法的数值解法

思想：寻找一个 $\theta '$ ，使 $L(\theta ')>L(\theta)$ ，使其逐步达到极大值

设对于每个x_i，存在一个未知概率分布函数 $Q_i(z^{(j)})$ ，其满足概率分布函数的特性，即：
$\sum_jQ_i(z^{j})=1\\ Q_i(z^j) \in [0,1]$

引入：随机变量 $Y$ 的期望 $E (Y)$
$\sum_{y \in Y} \left(P(y)*y\right)$

其中，y是随机变量Y的一个取值，P(y)是这个取值发生的概率。

引入：Jensen不等式
$\geq E(log(y))$

此时，令 $\frac{P(x^i,z^j;\theta)}{Q_i(z^j)}$ 为分布 $Q_i$ 的一个样本， $Q_i(z^j)$ 为这个样本的概率，可以得到

$\log\left(E\left( \frac{P(x^i,z^j;\theta)}{Q_i(z^j)} \right)\right) \geq E\left(\log\left(\frac{P(x^i,z^j;\theta)}{Q_i(z^j)} \right)\right) \\= \sum_j\left[Q_i(z^j)\log\left(\frac{P(x^i,z^j;\theta)}{Q_i(z^j)}\right)\right]$

上面的推导过程结束后，可以直接应用于含隐函数的极大似然函数：

$lnL(\theta) = \sum_i \log\sum_jP(x^i,z^j;\theta)\\ =\sum_i \log\sum_jQ_i(z^j)\frac{P(x^i,z^j;\theta)}{Q_i(z^j)}\\ \geq\sum_i\left\{\sum_j\left[ Q_i(z^j) \log\left(\frac{P(x^i,z^j;\theta)}{Q_i(z^j)}\right) \right]\right\} \tag{1}$

公式 (1) 实际上构建了对数似然函数的下界，而这个下界是存在优化手段的，因此通过优化该下界，我们可以让最后的 $L(\theta)$ 不断增大。而在什么情况下优化这个下界，一定可以增大原本的 $L(\theta)$ 呢？答案就是等式成立的时候。

引入：Jensen不等式成立条件：当随机变量是常数的时候，Jensen不等式取等号。

即，当

$\frac{P(x^i,z^j;\theta)}{Q_i(z^j)} = c \tag{2}$

时，上式的推导可以取等号。

下面来通过式(2) 求位置的概率分布 $Q_i$

$P(x^i,z^j;\theta) = cQ_i(z^j)\\$
同时对所有的隐变量z（用 j 来遍历）求和，另外注意 $\sum_jQ_i(z^{j})=1$ ，得：

$\sum_jP(x^i,z^j;\theta) = c\sum_jQ_i(z^j) = c$

所以 $c=\sum_jP(x^i,z^j;\theta)$ ，注意该式其实是求 $x$ 的边缘分布，因此
$c=\sum_jP(x^i,z^j;\theta)=P(x^i;\theta)$

将上式代回式(2)，可得
$Q_i(z^j) = \frac{P(x^i,z^j;\theta)}{\sum_jP(x^i,z^j;\theta)} = \frac{P(x^i,z^j;\theta)}{P(x^i;\theta)} \\ = P(z^j|x^i;\theta)$

可以得到 $Q_i$ 最终是一个条件概率，也即在上式中取 $Q_i(z^j) = P(z^{j}|x^i;\theta)$ 时，我们就找到了极大似然函数的下界。

同时注意到 $Q$ 函数拥有明确的含义：在由参数 $\theta$ 确定的概率分布下的 $x^i$ 的 $z^j$ 的条件概率。如果有看过人人都懂EM算法这篇博客的例子的同学，应该能够明白其含义

对于两百个男女混搭的同学，先随便假设一个参数，然后判断在这个参数条件下某个同学各自属于男女的概率，然后再各自使用极大似然估计优化参数。

上面一段话中的加粗部份，就是求 $Q_i$ 函数所做的事情，即EM算法中的E步。

在求解完成后，我们来进行下一步，M步

原优化目标为：
$\theta,z = argmax_{\theta,z} lnL(\theta,z)$

现优化目标（M步）变成了：
$\theta = argmax_{\theta}\sum_i\sum_jQ_i(z^j)log\frac{P(x^i,z^j;\theta)}{Q_i(z^j)}$

这一步的优化如何完成，此时就是用一些数值解法了，如梯度下降法，拟牛顿法等，这里要提的是，EM算法那只能求得极大值，无法求得最大值。

《统计学习方法》中，李航的公式貌似有一些错误，另外很多博客上其所用的符号感觉并不友好，相比较而言，使用 ";“来表示其后的参数是相关参数比用竖杠”|"表示更好，因为竖杠很容易会被当做条件概率，cs229中的笔记也是这样表示的。

EM算法对我而言，一方面是体会到了一种思想，另一方面则是对数学期望的彻底理解。

参考文献

李航《统计学习方法》
人人都懂EM算法
 cs229-note8

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。