(《机器学习》完整版系列)第7章 贝叶斯分类器——7.9 EM原理的详细数学推导

本文给出了EM原理的严谨的数学推导

EM原理

这里我们给出EM原理的数学推导,该过程充分体现了贝叶斯学派观点的应用(参见7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)最后一段)。

由贝叶斯公式【西瓜书式(7.7)】有
ln ⁡ P ( X   ∣   Θ ) = ln ⁡ [ P ( X , Z   ∣   Θ ) P ( Z   ∣   X , Θ ) ] = ln ⁡ P ( X , Z   ∣   Θ ) − ln ⁡ P ( Z   ∣   X , Θ ) \begin{align} \ln P(\mathbf{X}\,|\,\Theta) & =\ln \left[\frac{P(\mathbf{X},\mathbf{Z}\,|\,\Theta)}{P(\mathbf{Z}\,|\,\mathbf{X},\Theta)}\right]\notag \\ & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta)-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.59} \end{align} lnP(XΘ)=ln[P(ZX,Θ)P(X,ZΘ)]=lnP(X,ZΘ)lnP(ZX,Θ)(7.59)
将其改为对数似然表达(即将式(7.52)、式(7.55)代入),则有恒等式
L L ( Θ   ∣   X ) = L L ( Θ   ∣   X , Z ) − ln ⁡ P ( Z   ∣   X , Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.60} \end{align} LL(ΘX)=LL(ΘX,Z)lnP(ZX,Θ)(7.60)
希望找到 Θ {\Theta} Θ的迭代式,设 Θ {\Theta} Θ在时刻 t t t时为 Θ   t {\Theta}^{\,t} Θt,对两边取关于 Z   ∣   X , Θ   t \mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t} ZX,Θt的数学期望,左边对 Z \mathbf{Z} Z而言是常数,故有恒等式
L L ( Θ   ∣   X ) = E Z   ∣   X , Θ   t   L L ( Θ   ∣   X , Z ) − E Z   ∣   X , Θ   t   ln ⁡ P ( Z   ∣   X , Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.61} \end{align} LL(ΘX)=ZX,ΘtELL(ΘX,Z)ZX,ΘtElnP(ZX,Θ)(7.61)
其中, Z   ∣   X , Θ   t \mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t} ZX,Θt表示在已知 X , Θ   t \mathbf{X},{\Theta}^{\,t} X,Θt的条件下, Z \mathbf{Z} Z的分布。

式(7.61)的第一项即为式(7.58)所要研究的式子,记为
Q ( Θ   ∣   Θ   t ) = d e f E Z   ∣   X , Θ   t   L L ( Θ   ∣   X , Z ) \begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) \tag{7.62} \end{align} Q(ΘΘt)=defZX,ΘtELL(ΘX,Z)(7.62)

式(7.61)的第二项记为
R ( Θ   ∣   Θ   t ) = d e f E Z   ∣   X , Θ   t   ln ⁡ P ( Z   ∣   X , Θ ) \begin{align} R(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.63} \end{align} R(ΘΘt)=defZX,ΘtElnP(ZX,Θ)(7.63)

由式(7.62)、式(7.63),则式(7.61)变为
L L ( Θ   ∣   X ) = Q ( Θ   ∣   Θ   t ) − R ( Θ   ∣   Θ   t ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X})=Q(\Theta\,|\,{\Theta}^{\,t})-R(\Theta\,|\,{\Theta}^{\,t}) \tag{7.64} \end{align} LL(ΘX)=Q(ΘΘt)R(ΘΘt)(7.64)

类似于极大似然法,我们这里对对数似然的数学期望式(7.62)求极大,设求得的极大值点为 Θ   t + 1 {\Theta}^{\,t+1} Θt+1,则
Θ   t + 1 = arg ⁡ max ⁡ Θ Q ( Θ   ∣   Θ   t ) \begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{7.65} \end{align} Θt+1=ΘargmaxQ(ΘΘt)(7.65)

从某个初始值 Θ 0 {\Theta}^0 Θ0开始,反复用递推式(7.65)就可以得到一个序列
Θ 0 , Θ 1 , Θ 2 , ⋯   , Θ   t , Θ   t + 1 , ⋯ \begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.66} \end{align} Θ0,Θ1,Θ2,,Θt,Θt+1,(7.66)

由式(7.65)有
Q ( Θ   t + 1   ∣   Θ   t ) = max ⁡ Θ Q ( Θ   ∣   Θ   t ) \begin{align*} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})=\mathop{\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \end{align*} Q(Θt+1Θt)=ΘmaxQ(ΘΘt)

即有不等式
Q ( Θ   t + 1   ∣   Θ   t ) ⩾ Q ( Θ   t   ∣   Θ   t ) \begin{align} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.67} \end{align} Q(Θt+1Θt)Q(ΘtΘt)(7.67)

由式(7.63)有
R ( Θ   t + 1   ∣   Θ   t ) − R ( Θ   t   ∣   Θ   t ) = E Z   ∣   X , Θ   t   ln ⁡ P ( Z   ∣   X , Θ   t + 1 ) − E Z   ∣   X , Θ   t   ln ⁡ P ( Z   ∣   X , Θ   t ) = E Z   ∣   X , Θ   t   ln ⁡ P ( Z   ∣   X , Θ   t + 1 ) P ( Z   ∣   X , Θ   t ) ⩽ ln ⁡ E Z   ∣   X , Θ   t   P ( Z   ∣   X , Θ   t + 1 ) P ( Z   ∣   X , Θ   t ) (由Jensen不等式【西瓜书式(12.4)】) = ln ⁡ ∑ Z   ∣   X , Θ   t P ( Z   ∣   X , Θ   t ) P ( Z   ∣   X , Θ   t + 1 ) P ( Z   ∣   X , Θ   t ) (由 E 的定义) = ln ⁡ ∑ Z   ∣   X , Θ   t P ( Z   ∣   X , Θ   t + 1 ) = ln ⁡ 1 = 0 即:  R ( Θ   t + 1   ∣   Θ   t ) ⩽ R ( Θ   t   ∣   Θ   t ) \begin{align} & \quad R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1}) -\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}) \notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \leqslant \ln \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \quad \quad \text{(由Jensen不等式【西瓜书式(12.4)】)}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})\frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\quad \text{(由${\mathbb{E} }$的定义)}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}\notag \\ & =\ln 1\notag \\ & =0\notag \\ \text{即: }R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t}) & \leqslant R({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.68} \end{align} 即: R(Θt+1Θt)R(Θt+1Θt)R(ΘtΘt)=ZX,ΘtElnP(ZX,Θt+1)ZX,ΘtElnP(ZX,Θt)=ZX,ΘtElnP(ZX,Θt)P(ZX,Θt+1)lnZX,ΘtEP(ZX,Θt)P(ZX,Θt+1)(由Jensen不等式【西瓜书式(12.4)】)=lnZX,ΘtP(ZX,Θt)P(ZX,Θt)P(ZX,Θt+1)(由E的定义)=lnZX,ΘtP(ZX,Θt+1)=ln1=0R(ΘtΘt)(7.68)
其中,使用Jensen不等式要注意:Jensen不等式是对“下凸”函数而言,若“下凹”则反号,由对数函数图像知 ln ⁡ \ln ln是“下凹”函数,故不等式相反。

由式(7.64)、式(7.67)、式(7.68) 知
L L ( Θ   t + 1   ∣   X ) = Q ( Θ   t + 1   ∣   Θ   t ) − R ( Θ   t + 1   ∣   Θ   t ) (式(7.64)中令 Θ = Θ   t + 1 ) ⩾ Q ( Θ   t   ∣   Θ   t ) − R ( Θ   t   ∣   Θ   t ) = L L ( Θ   t   ∣   X ) (式(7.64)中令 Θ = Θ   t ) L L ( Θ   t   ∣   X ) = ln ⁡ P ( X   ∣   Θ   t ) ⩽ ln ⁡ 1 = 0 \begin{align} \mathrm{LL}({\Theta}^{\,t+1}\,|\,\mathbf{X}) & =Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\quad \text{(式(7.64)中令${\Theta}={\Theta}^{\,t+1}$)}\notag \\ & \geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\quad \text{(式(7.64)中令${\Theta}={\Theta}^{\,t}$)} \tag{7.69} \\ \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,{\Theta}^{\,t})\notag \\ & \leqslant \ln 1\notag \\ & =0 \tag{7.70} \end{align} LL(Θt+1X)LL(ΘtX)=Q(Θt+1Θt)R(Θt+1Θt)(式(7.64)中令Θ=Θt+1Q(ΘtΘt)R(ΘtΘt)=LL(ΘtX)(式(7.64)中令Θ=Θt=lnP(XΘt)ln1=0(7.69)(7.70)

不等式(7.69)说明序列 { L L ( Θ   t   ∣   X ) } t = 0 + ∞ \{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{t=0}^{+\infty } {LL(ΘtX)}t=0+是单调递增,不等式(7.70)说明该序列有界,数学知识告诉我们:单调递增有界必收敛到极大值。 即序列 { L L ( Θ   t   ∣   X ) } k = 0 + ∞ \{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{k=0}^{+\infty } {LL(ΘtX)}k=0+是与序列(7.66)( { Θ   t } k = 0 + ∞ \{{\Theta}^{\,t}\}_{k=0}^{+\infty } {Θt}k=0+)对应的,且足够大的 t t t后,序列(7.66)的 Θ   t {\Theta}^{\,t} Θt使得序列 { L L ( Θ   t   ∣   X ) } \{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\} {LL(ΘtX)}趋于稳定(收敛性),这时,可取足够大的 T T T,有
{ lim ⁡ t → + ∞ L L ( Θ   t   ∣   X ) = max ⁡ Θ ∈ 序列(7.66) L L ( Θ   ∣   X ) lim ⁡ t → + ∞ L L ( Θ   t   ∣   X ) ≈ L L ( Θ   T   ∣   X ) \begin{align} \begin{cases} \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})= \mathop{\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X}) \\ \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\thickapprox \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X}) \\ \end{cases} \tag{7.71} \end{align} t+limLL(ΘtX)=Θ序列(7.66)maxLL(ΘX)t+limLL(ΘtX)LL(ΘTX)(7.71)


Θ ∗ ∗ = arg ⁡ max ⁡ Θ ∈ 序列(7.66) L L ( Θ   ∣   X ) ≈ arg ⁡ Θ   T L L ( Θ   T   ∣   X ) = Θ   T (这时 Θ   T 是已由序列(7.66)求出) \begin{align} {\Theta}^{**} & =\mathop{\arg\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X})\notag \\ & \thickapprox \mathop{\arg}\limits_{{\Theta}^{\,T}} \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X})\notag \\ & ={\Theta}^{\,T}\quad \text{(这时${\Theta}^{\,T}$是已由序列(7.66)求出)} \tag{7.72} \end{align} Θ∗∗=Θ序列(7.66)argmaxLL(ΘX)ΘTargLL(ΘTX)=ΘT(这时ΘT是已由序列(7.66)求出)(7.72)
Θ   T {\Theta}^{\,T} ΘT(足够大的 T T T)作为 Θ ∗ ∗ {\Theta}^{**} Θ∗∗的近似解。

原目标是求式(7.57) Θ ∗ = arg ⁡ max ⁡ Θ L L ( Θ   ∣   X ) {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) Θ=ΘargmaxLL(ΘX),而序列(7.66)可视为一条搜寻路径,即最优值 Θ ∗ ∗ {\Theta}^{**} Θ∗∗为式(7.57)中 Θ ∗ {\Theta}^{*} Θ的一个特解(搜索到的),因此, Θ   T {\Theta}^{\,T} ΘT(足够大的 T T T)可作为 Θ ∗ {\Theta}^{*} Θ的近似解。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7.8 再谈极大似然(对数边际似然)
下一篇:7.10 EM算法的使用场景及步骤(反复循环执行E步和M步)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值