EM算法学习笔记

EM介绍

最大期望算法(Expectation-Maximization algorithm, EM),是一类通过迭代进行极大似然估计的优化算法,用于对包含隐变量或缺失数据的概率模型进行参数估计 ,EM算法的标准计算框架由E步(Expectation-step)和M步(Maximization step)交替组成,算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法

算法流程

输入:观测变量数据Y,隐变量数据Z,联合分布P(Y, Z|θ) ,条件分布P(Z|Y, θ);
输出:模型参数θ。

1)参数初始化:选择参数的处置 θ ( 0 ) θ^{(0)} θ(0), 开始迭代。需要注意的是EM算法对初值选择是敏感的。

2)E步:记 θ ( i ) θ^{(i)} θ(i)为第 i i i次迭代参数 θ θ θ的估计值,在第 i + 1 i+1 i+1次迭代的E步,计算 Q Q Q函数, Q Q Q函数的定义如下:

完全数据的对数似然函数 l o g P ( Y , Z ∣ θ ) logP(Y, Z|θ) logP(Y,Zθ)关于在给定观测数据 Y Y Y和当前参数 θ ( i ) θ^{(i)} θ(i)下对未观测数据 Z Z Z的条件概率分布 P ( Z ∣ Y , θ ( i ) ) P(Z|Y, θ^{(i)}) P(ZY,θ(i))的期望称为 Q Q Q函数,即

Q ( θ , θ ( i ) ) = E Z [ l o g P ( Y , Z ∣ θ ) ∣ Y , θ ( i ) ] Q(θ, θ^{(i)}) = E_Z[logP(Y, Z|θ) | Y, θ^{(i)}] Q(θ,θ(i))=EZ[logP(Y,Zθ)Y,θ(i)]                           = ∑ Z l o g P ( Y , Z ∣ θ ) P ( Z ∣ Y , θ ( i ) ) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \sum_ZlogP(Y, Z|θ)P(Z|Y, θ^{(i)})                          =ZlogP(Y,Zθ)P(ZY,θ(i))其中Z是未观测数据, Q ( θ , θ ( i ) ) Q(θ, θ^{(i)}) Q(θ,θ(i))的第一个变元表示要极大化的参数,第2个变元表示参数的当前估计值。每次迭代实际在求 Q Q Q函数及其极大。
3)M步:求使 Q ( θ , θ ( i ) ) Q(θ, θ^{(i)}) Q(θ,θ(i))极大化的 θ θ θ, 确定第 i + 1 i+1 i+1次迭代的参数的估计 θ ( i + 1 ) θ^{(i+1)} θ(i+1) θ ( i + 1 ) = a r g max ⁡ θ Q ( θ , θ ( i ) ) θ^{(i+1)} = arg\max_θQ(θ, θ^{(i)}) θ(i+1)=argθmaxQ(θ,θ(i))
完成迭代 θ ( i ) → θ ( i + 1 ) θ^{(i)}→θ^{(i+1)} θ(i)θ(i+1)
4)重复第2)步和第3)步,直至收敛。一般迭代停止的条件是设定较小的正数 ε 1 , ε 2 ε_1, ε_2 ε1,ε2满足
‖ θ ( i + 1 ) − θ ( i ) ﹤ ε 1 ‖    或    ‖ Q ( θ ( i + 1 ) , θ ( i ) ) − Q ( θ ( i ) , θ ( i ) ) ‖ ﹤ ε 2 ‖θ^{(i+1)} - θ^{(i)} ﹤ ε_1‖\ \ 或\ \ ‖Q(θ^{(i+1)}, θ^{(i)}) - Q(θ^{(i)}, θ^{(i)}) ‖﹤ε_2 θ(i+1)θ(i)ε1    Q(θ(i+1),θ(i))Q(θ(i),θ(i))ε2

算法理解

下图给出EM算法的直观解释,图中上方曲线为 L ( θ ) L(θ) L(θ), 下方曲线为 L ( θ ) L(θ) L(θ)的下界。首先我们初始化一个 θ 1 θ_1 θ1,根据它求似然函数一个紧的下界,也就是图中第一条黑短线,黑短线上的值虽然都小于似然函数的值,但至少有一点可以满足等号(所以称为紧下界),最大化小黑短线我们就hit到至少与似然函数刚好相等的位置,对应的横坐标就是我们的新的 θ 2 θ_2 θ2,如此进行,只要保证随着 θ θ θ的更新,每次最大化的小黑短线值都比上次的更大,那么算法收敛,最后就能最大化到似然函数的极大值处。
在这里插入图片描述

EM算法在无监督学习中的应用

有时训练数据只有输入没有对应的输出 ( x 1 , ⋅ ) , ( x 2 , ⋅ ) , … , ( x N , ⋅ ) {(x_1, ·), (x_2, ·), …, (x_N, ·)} (x1,),(x2,),,(xN,),从这样的数据学习模型成为无监督学习问题。EM算法可以用于生成模型的无监督学习。生成模型由联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)表示,可以认为无监督学习训练数据是联合概率分布产生的数据, X X X为观测数据, Y Y Y为未观测数据。

EM算法在高斯混合模型学习中的应用

待补充

参考

李航 统计学习方法
EM算法详细推导和讲解 https://www.cnblogs.com/bigmoyan/p/4550375.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值