EM 算法

这个算法李航在《统计学习方法》上说的比较好:
“EM算法是一种迭代算法,用于含有隐变量的概率模型产生的极大似然估计,或极大后验概率估计。”


Q函数:完全数据的对数似然函数 logP(Y,Z|θ )关于在给定观测数据Y和当前参数 θi 下对未观测数据Z的条件概率分布 P(Z|Y,θi) 的期望称为Q函数,即
Q(θ,θi)=EZ[logP(Y,Z|θ)|Y,θi]


E step:
计算 Q(θ,θi)=EZ[logP(Y,Z|θ)|Y,θi]
M step:
θi+1=argmaxθQ(θ,θi)


需要注意的是,李航的那句话确实有助于记忆理清算法步骤,但是我觉得更好的explanation建议看Andrew N.g CS229的notes 8(对应lecture12). 下面把几个关键点贴上:

由下图可以看到,EM确实是极大似然估计(和文首李航说的一样)。并且设隐变量服从Q分布,由琴生不等式得到下界

这里写图片描述

可是,世上的分布函数那么多,怎么选择Q分布作为隐变量的分布函数呢?EM的原则是,根据琴生不等式,选择一个Q分布使得不等式取到等号!这样就可以在后续的M-step中,通过寻找 θ 最大化这个紧下界来提升似然概率(也就是上图(1)式等号左边的式子)。

这里写图片描述

M-step完了之后,再用新的 θ 来更新Q分布(这就是E-step).就这样不断的迭代EM两步,E-step使(3)式取到等号,M-step最大化下界(也就是(3)的右边,这时候(3)又变成大于等于),然后又E-step取到等号……

简单说就是设Z服从 QZi 的分布,用Jensen不等式构造 logP(Y|θ) 的紧下界,由此(下界函数紧时,也就是取到等号时)可以得出 QZi 的分布形式;然后就是M步优化 θ 最大化下界了。

这里写图片描述

对于上图,其实M-step与李航的M-step是等价的,只是写法不同而已。


总的来说,EM算法记住两句话:
1,EM算法是一种迭代算法,用于含有隐变量的概率模型产生的极大似然估计,或极大后验概率估计
2,E步:求Q函数,其实就是构造紧下界函数
(记住是“紧”,紧相当于Jensen不等式取到等号,从而得到 QZi 分布,从而可以求完全数据对数似然函数 logP(Y,Z|θ)|Y,θi 关于 QZi 的期望,也就是Q函数,两个Q不要搞混了。。。前者是 QZi 分布,后者才是Q函数)
3,M步:求 θi+1=argmaxθQ(θ,θi)


应用在高斯混合模型,混合模型可以由任意概率密度代替,我们常用的是高斯混合模型。
要区别高斯混合模型和高斯判别模型。高斯判别模型认为数据由某一个(记住是一个!)高斯函数生成;高斯混合模型认为数据是由一堆加权组合的高斯模型生成。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值