EM算法收敛性推导

最新推荐文章于 2022-09-06 14:16:40 发布

taoqick

最新推荐文章于 2022-09-06 14:16:40 发布

阅读量1.3k

点赞数 1

分类专栏：算法机器学习

本文链接：https://blog.csdn.net/taoqick/article/details/102993462

版权

算法同时被 2 个专栏收录

474 篇文章 6 订阅

订阅专栏

机器学习

73 篇文章 0 订阅

订阅专栏

EM算法（Expectation-Maximization）,就是用最大似然MLE来递推求模型的参数。顾明思议分为两步：第一步求隐变量的期望，第二步找到让隐变量期望最大化的参数。用公式来表示最终的目标就是：
$L(\theta)=\sum_{i}log(p(x_i;\theta)) \\ \theta = \argmax_{\theta}L(\theta)$
而模型中有未知的隐变量z，那么
$L(\theta)=\sum_{i}log\sum_z(p(x_i,z;\theta))$
里面的求和实际上是希望求z得期望，假设z服从某种分布，它的概率是 $Q_i(z)$ ，它的取值分布是 $g (z)$ ，那么 $L(\theta)$ 可以进一步变成：
$L(\theta)=\sum_{i}logE(z) \\ L(\theta)=\sum_{i}log\sum_zQ_i(z)g(z) \\ L(\theta)=\sum_{i}log\sum_zQ_i(z)\frac{p(x_i,z;\theta)}{Q_i(z)}$
利用Jesson不等式，凸函数 $f (E (z)) > = E (f (z))$ ，相等的情况是 $E (z) = z$ ，当 $E (z)$ 是常数的时候。那么可以成功把log放进求和里面
$L(\theta)>=\sum_{i}\sum_zQ_i(z)log\frac{p(x_i,z;\theta)}{Q_i(z)}=J(z,\theta)$
所以，整个极大似然的概率 $L(\theta)$ 有下界 $J(z,\theta)$ ，我们每次优化可以提供下界 $J(z,\theta)$ ，来不断提高 $L(\theta)$ ，也就是说 $L(\theta)$ 是不断递增的，同时 $L(\theta)$ 不超过1，这就是算法能收敛的原因。
还剩下一个问题 $Q_i(z)$ 应该如何选择，如果Jesson不等式相等的条件就是
$\frac{p(x_i,z;\theta)}{Q_i(z)}=c$
同时 $\sum_{z}Q_i(z)=1$ ，c是一个常数，也就是说 $\sum_z p(x_i,z;\theta)$ 是和z无关的，写成公式就是
$\sum_z p(x_i,z;\theta)=p(x_i;\theta)$
那么
$Q_i(z)=\frac{p(x_i,z;\theta)}{\sum_zp(x_i,z;\theta)} \\ Q_i(z)=\frac{p(x_i,z;\theta)}{p(x_i;\theta)} \\ Q_i(z)=p(z|x_i;\theta)$
这也解决了 $Q_i(z)$ 如何选择的问题，刚好的已知参数和数据情况下的后验概率。
所以，EM算法用公式表达就是：

E步：算隐含变量的期望，隐含变量的概率分布是 $Q_i(z)=p(z|x_i;\theta)$
而期望的下界是
$J(z,\theta)=\sum_{i}\sum_zQ_i(z)log\frac{p(x_i,z;\theta)}{Q_i(z)}$
M步：找到隐含变量期望最大化的 $\theta$ 进行下一轮迭代，期望下界最大化就是期望最大化
$\theta = \argmax_{\theta}J(z,\theta)$