EM 算法

最新推荐文章于 2020-06-29 10:07:28 发布

qiusuoxiaozi

最新推荐文章于 2020-06-29 10:07:28 发布

阅读量707

点赞数

分类专栏： machine learning 文章标签：算法迭代

本文链接：https://blog.csdn.net/qiusuoxiaozi/article/details/50906772

版权

machine learning 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

这个算法李航在《统计学习方法》上说的比较好:
“EM算法是一种迭代算法，用于含有隐变量的概率模型产生的极大似然估计，或极大后验概率估计。”

Q函数：完全数据的对数似然函数 $logP(Y,Z|\theta$ )关于在给定观测数据Ｙ和当前参数 $\theta^i$ 下对未观测数据Z的条件概率分布 $P(Z|Y,\theta^i)$ 的期望称为Q函数，即
$Q(\theta,\theta^i)=E_Z[logP(Y,Z|\theta)|Y,\theta^i]$

E step：
计算 $Q(\theta,\theta^i)=E_Z[logP(Y,Z|\theta)|Y,\theta^i]$
M step：
$\theta^{i+1}=argmax_{\theta}Q(\theta,\theta^i)$

需要注意的是，李航的那句话确实有助于记忆理清算法步骤，但是我觉得更好的explanation建议看Andrew N.g CS229的notes 8（对应lecture12）. 下面把几个关键点贴上：

由下图可以看到，EM确实是极大似然估计（和文首李航说的一样）。并且设隐变量服从Q分布，由琴生不等式得到下界

这里写图片描述

可是，世上的分布函数那么多，怎么选择Q分布作为隐变量的分布函数呢？EM的原则是，根据琴生不等式，选择一个Q分布使得不等式取到等号！这样就可以在后续的M-step中，通过寻找 $\theta$ 最大化这个紧下界来提升似然概率（也就是上图（1）式等号左边的式子）。

这里写图片描述

M-step完了之后，再用新的 $\theta$ 来更新Q分布（这就是E-step）.就这样不断的迭代EM两步，E-step使（3）式取到等号，M-step最大化下界（也就是（3）的右边，这时候（3）又变成大于等于），然后又E-step取到等号……

简单说就是设Z服从 $Q（Z^i）$ 的分布，用Jensen不等式构造 $logP(Y|\theta)$ 的紧下界，由此（下界函数紧时，也就是取到等号时）可以得出 $Q（Z^i）$ 的分布形式；然后就是M步优化 $\theta$ 最大化下界了。

这里写图片描述

对于上图，其实M-step与李航的M-step是等价的，只是写法不同而已。

总的来说，EM算法记住两句话：
1，EM算法是一种迭代算法，用于含有隐变量的概率模型产生的极大似然估计，或极大后验概率估计。
2，E步：求Q函数，其实就是构造紧下界函数
（记住是“紧”，紧相当于Jensen不等式取到等号，从而得到 $Q（Z^i）$ 分布，从而可以求完全数据对数似然函数 $logP(Y,Z|\theta)|Y,\theta^i）$ 关于 $Q（Z^i）$ 的期望，也就是Q函数，两个Q不要搞混了。。。前者是 $Q（Z^i）$ 分布，后者才是Q函数）
3，M步：求 $\theta^{i+1}=argmax_{\theta}Q(\theta,\theta^i)$

应用在高斯混合模型，混合模型可以由任意概率密度代替，我们常用的是高斯混合模型。
要区别高斯混合模型和高斯判别模型。高斯判别模型认为数据由某一个（记住是一个！）高斯函数生成；高斯混合模型认为数据是由一堆加权组合的高斯模型生成。

qiusuoxiaozi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
EM 算法

这个算法李航在《统计学习方法》上说的比较好: “EM算法是一种迭代算法，用于含有隐变量的概率模型产生的极大似然估计，或极大后验概率估计。”Q函数：完全数据的对数似然函数logP(Y,Z|θlogP(Y,Z|\theta)关于在给定观测数据Ｙ和当前参数θi\theta^i 下对未观测数据Z的条件概率分布P(Z|Y,θi)P(Z|Y,\theta^i)的期望称为Q函数，即 Q(θ,θi)=EZ[l
复制链接

扫一扫

专栏目录