EM算法的导出、收敛性证明

首先,把使用的符号声明一下。
Y : 观 测 变 量 各 分 量 i i d , 即 P ( Y ) = P ( y 1 , y 2 , . . . , y N ) = ∏ i = 1 N P ( y i ) Y:观测变量 \quad 各分量iid,即P(Y)=P(y_1,y_2,...,y_N)=\prod_{i=1}^{N}P(y_i) Y:iidP(Y)=P(y1,y2,...,yN=i=1NP(yi)
Z : 隐 变 量 Z:隐变量 Z:
Θ : 参 数 \Theta :参数 Θ:
( Y , Z ) : 完 全 数 据 (Y,Z):完全数据 (Y,Z):

我们知道,EM算法的迭代公式为 Θ t + 1 = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z \Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ Θt+1=argmaxΘZP(ZY,Θt)logP(Y,ZΘ)dZ,现在依次推导其导出及收敛性。

1.导出

使用最大似然推导,我们的目的是使得 l o g P ( Y ∣ Θ ) logP(Y|\Theta) logP(YΘ)最大,故从这个角度出发。
l o g P ( Y ∣ Θ ) = l o g P ( Y , Z ∣ Θ ) − l o g P ( Z ∣ Y , Θ ) 引 入 Q ( Z ) ≠ 0 = l o g P ( Y , Z ∣ Θ ) Q ( Z ) − l o g P ( Z ∣ Y , Θ ) Q ( Z ) \begin{aligned} logP(Y|\Theta) & =logP(Y,Z|\Theta) - logP(Z|Y,\Theta) \\ 引入Q(Z)\neq0\qquad \qquad \qquad & = log\frac{P(Y,Z|\Theta)}{Q(Z)} - log\frac{P(Z|Y,\Theta)}{Q(Z)} \end{aligned} logP(YΘ)Q(Z)=0=logP(Y,ZΘ)logP(ZY,Θ)=logQ(Z)P(Y,ZΘ)logQ(Z)P(ZY,Θ)
两边对 Q ( Z ) Q(Z) Q(Z)求期望:
左 边 = ∫ Z Q ( Z ) l o g P ( Y ∣ Θ ) d Z = l o g P ( Y ∣ Θ ) ∫ Z Q ( Z ) d Z = l o g P ( Y ∣ Θ ) ⋅ 1 = l o g P ( Y ∣ Θ ) 右 边 = ∫ Z Q ( Z ) l o g P ( Y , Z ∣ Θ ) Q ( Z ) d Z − ∫ Z Q ( Z ) l o g P ( Z ∣ Y , Θ ) Q ( Z ) d Z = E L B O + K L ( Q ( Z ) ∣ ∣ P ( Z ∣ Y , Θ ) ) \begin{aligned} 左边 &=\int_{Z}Q(Z)logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\int_{Z}Q(Z)dZ\\ &=logP(Y|\Theta)\cdot1\\ &=logP(Y|\Theta)\\ 右边 &=\int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ - \int_{Z}Q(Z)log\frac{P(Z|Y,\Theta)}{Q(Z)} dZ\\ &=ELBO + KL(Q(Z)||P(Z|Y,\Theta)) \end{aligned} =ZQ(Z)logP(YΘ)dZ=logP(YΘ)ZQ(Z)dZ=logP(YΘ)1=logP(YΘ)=ZQ(Z)logQ(Z)P(Y,ZΘ)dZZQ(Z)logQ(Z)P(ZY,Θ)dZ=ELBO+KL(Q(Z)P(ZY,Θ))
右边的 E L B O ELBO ELBO(Evidence lower bound)是似然 l o g P ( Y ∣ Θ ) logP(Y|\Theta) logP(YΘ)的一个下界,因为 K L ( Q ( Z ) ∣ ∣ P ( Z ∣ Y , Θ ) ≥ 0 KL(Q(Z)||P(Z|Y,\Theta)\geq0 KL(Q(Z)P(ZY,Θ)0,故 l o g P ( Y ∣ Θ ) ≥ E L B O logP(Y|\Theta)\geq ELBO logP(YΘ)ELBO(当 K L ( Q ( Z ) ∣ ∣ P ( Z ∣ Y , Θ ) = 0 KL(Q(Z)||P(Z|Y,\Theta)=0 KL(Q(Z)P(ZY,Θ)=0时取等号)。因此,最大化似然的过程可以转化为最大化 E L B O ELBO ELBO的过程。现在回到开头,我们导出 Θ t + 1 = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z \Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ Θt+1=argmaxΘZP(ZY,Θt)logP(Y,ZΘ)dZ,即在已知 Θ t \Theta^{t} Θt推导 Θ t + 1 \Theta^{t+1} Θt+1,此时 Q ( Z ) = P ( Z ∣ Y , Θ t ) Q(Z)=P(Z|Y,\Theta^{t}) Q(Z)=P(ZY,Θt),则在第t+1步最大化似然等价于最大化 E L B O ELBO ELBO
Θ t + 1 = a r g m a x Θ l o g P ( Y ∣ Θ ) = a r g m a x Θ E L B O = a r g m a x Θ ∫ Z Q ( Z ) l o g P ( Y , Z ∣ Θ ) Q ( Z ) d Z = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) P ( Z ∣ Y , Θ t ) d Z = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z − ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Z ∣ Y , Θ t ) d Z = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z \begin{aligned} \Theta^{t+1} &=argmax_\Theta logP(Y|\Theta)\\ &=argmax_\Theta ELBO\\ &=argmax_\Theta \int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Y,Z|\Theta)}{P(Z|Y,\Theta^{t})} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ - \int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta^{t}) dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ \end{aligned} Θt+1=argmaxΘlogP(YΘ)=argmaxΘELBO=argmaxΘZQ(Z)logQ(Z)P(Y,ZΘ)dZ=argmaxΘZP(ZY,Θt)logP(ZY,Θt)P(Y,ZΘ)dZ=argmaxΘZP(ZY,Θt)logP(Y,ZΘ)dZZP(ZY,Θt)logP(ZY,Θt)dZ=argmaxΘZP(ZY,Θt)logP(Y,ZΘ)dZ
此处解释一下上面公式的最后一步等号是怎么得来的,因为后面那项的 Θ t \Theta^{t} Θt是已知的,即与 Θ \Theta Θ无关,故在求关于 Θ \Theta Θ的极大时,它求导后为0。至此,EM算法的导出得证。当然,还可以使用Jesen不等式的方法。

2.收敛性证明

所谓收敛性证明,即证明 l o g P ( Y ∣ Θ ) logP(Y|\Theta) logP(YΘ)是递增的,从而它可以在迭代过程中取得极大值。首先,同样地把对数似然写开。
l o g P ( Y ∣ Θ ) = l o g P ( Y , Z ∣ Θ ) − l o g P ( Z ∣ Y , Θ ) logP(Y|\Theta) =logP(Y,Z|\Theta) - logP(Z|Y,\Theta) logP(YΘ)=logP(Y,ZΘ)logP(ZY,Θ)
两边对 P ( Z ∣ Y , Θ t ) P(Z|Y,\Theta^{t}) P(ZY,Θt)求期望:
左 边 = ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y ∣ Θ ) d Z = l o g P ( Y ∣ Θ ) 右 边 = ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z − ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Z ∣ Y , Θ ) d Z = Q ( Θ , Θ t ) − H ( Θ , Θ t ) 则 证 明 似 然 函 数 递 增 等 价 于 证 明 [ Q ( Θ t + 1 , Θ t ) − H ( Θ t + 1 , Θ t ) ] − [ Q ( Θ t , Θ t ) − H ( Θ t , Θ t ) ] ≥ 0 , 首 先 , Q ( Θ t + 1 , Θ t ) − Q ( Θ t , Θ t ) ≥ 0 是 显 然 的 , 因 为 Θ t + 1 = a r g m a x Θ Q ( Θ , Θ t ) , 现 在 即 需 证 H ( Θ t , Θ t ) − H ( Θ t + 1 , Θ t ) ≥ 0. H ( Θ t , Θ t ) − H ( Θ t + 1 , Θ t ) = ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Z ∣ Y , Θ t ) P ( Z ∣ Y , Θ t + 1 ) d Z = K L ( P ( Z ∣ Y , Θ t ) ∣ ∣ P ( Z ∣ Y , Θ t + 1 ) ) ≥ 0 \begin{aligned} 左边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\\ 右边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ-\int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta) dZ\\ &=Q(\Theta,\Theta^{t}) - H(\Theta,\Theta^{t}) \end{aligned} \\ 则证明似然函数递增等价于证明[Q(\Theta^{t+1},\Theta^{t}) - H(\Theta^{t+1},\Theta^{t})]-[Q(\Theta^{t},\Theta^{t}) - H(\Theta^{t},\Theta^{t})]\geq0,\\ 首先,Q(\Theta^{t+1},\Theta^{t})-Q(\Theta^{t},\Theta^{t})\geq0是显然的,因为\Theta^{t+1}=argmax_\Theta Q(\Theta,\Theta^{t}),现在即需 证\quad\\H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0.\\ \begin{aligned} H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t}) &=\int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Z|Y,\Theta^{t})}{P(Z|Y,\Theta^{t+1})} dZ\\ &=KL(P(Z|Y,\Theta^{t})||P(Z|Y,\Theta^{t+1}))\\ &\geq0 \end{aligned} =ZP(ZY,Θt)logP(YΘ)dZ=logP(YΘ)=ZP(ZY,Θt)logP(Y,ZΘ)dZZP(ZY,Θt)logP(ZY,Θ)dZ=Q(Θ,Θt)H(Θ,Θt)[Q(Θt+1,Θt)H(Θt+1,Θt)][Q(Θt,Θt)H(Θt,Θt)]0Q(Θt+1,Θt)Q(Θt,Θt)0Θt+1=argmaxΘQ(Θ,Θt)H(Θt,Θt)H(Θt+1,Θt)0.H(Θt,Θt)H(Θt+1,Θt)=ZP(ZY,Θt)logP(ZY,Θt+1)P(ZY,Θt)dZ=KL(P(ZY,Θt)P(ZY,Θt+1))0
上述后面的 H ( Θ t , Θ t ) − H ( Θ t + 1 , Θ t ) ≥ 0 H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0 H(Θt,Θt)H(Θt+1,Θt)0也可以使用Jesen不等式证明,此处略。至此,收敛性得证。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于计算机专业的学生而言,参加各类比赛能够带来多方面的益处,具体包括但不限于以下几点: 技能提升: 参与比赛促使学生深入学习和掌握计算机领域的专业知识与技能,如编程语言、算法设计、软件工程、网络安全等。 比赛通常涉及实际问题的解决,有助于将理论知识应用于实践中,增强问题解决能力。 实践经验: 大多数比赛都要求参赛者设计并实现解决方案,这提供了宝贵的动手操作机会,有助于积累项目经验。 实践经验对于计算机专业的学生尤为重要,因为雇主往往更青睐有实际项目背景的候选人。 团队合作: 许多比赛鼓励团队协作,这有助于培养学生的团队精神、沟通技巧和领导能力。 团队合作还能促进学生之间的知识共享和思维碰撞,有助于形成更全面的解决方案。 职业发展: 获奖经历可以显著增强简历的吸引力,为求职或继续深造提供有力支持。 某些比赛可能直接与企业合作,提供实习、工作机会或奖学金,为学生的职业生涯打开更多门路。 网络拓展: 比赛是结识同行业人才的好机会,可以帮助学生建立行业联系,这对于未来的职业发展非常重要。 奖金与荣誉: 许多比赛提供奖金或奖品,这不仅能给予学生经济上的奖励,还能增强其成就感和自信心。 荣誉证书或奖状可以证明学生的成就,对个人品牌建设有积极作用。 创新与研究: 参加比赛可以激发学生的创新思维,推动科研项目的开展,有时甚至能促成学术论文的发表。 个人成长: 在准备和参加比赛的过程中,学生将面临压力与挑战,这有助于培养良好的心理素质和抗压能力。 自我挑战和克服困难的经历对个人成长有着深远的影响。 综上所述,参加计算机领域的比赛对于学生来说是一个全面发展的平台,不仅可以提升专业技能,还能增强团队协作、沟通、解决问题的能力,并为未来的职业生涯奠定坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值