本文给出了EM原理的严谨的数学推导
EM原理
这里我们给出EM原理的数学推导,该过程充分体现了贝叶斯学派观点的应用(参见7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)最后一段)。
由贝叶斯公式【西瓜书式(7.7)】有
ln
P
(
X
∣
Θ
)
=
ln
[
P
(
X
,
Z
∣
Θ
)
P
(
Z
∣
X
,
Θ
)
]
=
ln
P
(
X
,
Z
∣
Θ
)
−
ln
P
(
Z
∣
X
,
Θ
)
\begin{align} \ln P(\mathbf{X}\,|\,\Theta) & =\ln \left[\frac{P(\mathbf{X},\mathbf{Z}\,|\,\Theta)}{P(\mathbf{Z}\,|\,\mathbf{X},\Theta)}\right]\notag \\ & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta)-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.59} \end{align}
lnP(X∣Θ)=ln[P(Z∣X,Θ)P(X,Z∣Θ)]=lnP(X,Z∣Θ)−lnP(Z∣X,Θ)(7.59)
将其改为对数似然表达(即将式(7.52)、式(7.55)代入),则有恒等式
L
L
(
Θ
∣
X
)
=
L
L
(
Θ
∣
X
,
Z
)
−
ln
P
(
Z
∣
X
,
Θ
)
\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.60} \end{align}
LL(Θ∣X)=LL(Θ∣X,Z)−lnP(Z∣X,Θ)(7.60)
希望找到
Θ
{\Theta}
Θ的迭代式,设
Θ
{\Theta}
Θ在时刻
t
t
t时为
Θ
t
{\Theta}^{\,t}
Θt,对两边取关于
Z
∣
X
,
Θ
t
\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}
Z∣X,Θt的数学期望,左边对
Z
\mathbf{Z}
Z而言是常数,故有恒等式
L
L
(
Θ
∣
X
)
=
E
Z
∣
X
,
Θ
t
L
L
(
Θ
∣
X
,
Z
)
−
E
Z
∣
X
,
Θ
t
ln
P
(
Z
∣
X
,
Θ
)
\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.61} \end{align}
LL(Θ∣X)=Z∣X,ΘtELL(Θ∣X,Z)−Z∣X,ΘtElnP(Z∣X,Θ)(7.61)
其中,
Z
∣
X
,
Θ
t
\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}
Z∣X,Θt表示在已知
X
,
Θ
t
\mathbf{X},{\Theta}^{\,t}
X,Θt的条件下,
Z
\mathbf{Z}
Z的分布。
式(7.61)的第一项即为式(7.58)所要研究的式子,记为
Q
(
Θ
∣
Θ
t
)
=
d
e
f
E
Z
∣
X
,
Θ
t
L
L
(
Θ
∣
X
,
Z
)
\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) \tag{7.62} \end{align}
Q(Θ∣Θt)=defZ∣X,ΘtELL(Θ∣X,Z)(7.62)
式(7.61)的第二项记为
R
(
Θ
∣
Θ
t
)
=
d
e
f
E
Z
∣
X
,
Θ
t
ln
P
(
Z
∣
X
,
Θ
)
\begin{align} R(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.63} \end{align}
R(Θ∣Θt)=defZ∣X,ΘtElnP(Z∣X,Θ)(7.63)
由式(7.62)、式(7.63),则式(7.61)变为
L
L
(
Θ
∣
X
)
=
Q
(
Θ
∣
Θ
t
)
−
R
(
Θ
∣
Θ
t
)
\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X})=Q(\Theta\,|\,{\Theta}^{\,t})-R(\Theta\,|\,{\Theta}^{\,t}) \tag{7.64} \end{align}
LL(Θ∣X)=Q(Θ∣Θt)−R(Θ∣Θt)(7.64)
类似于极大似然法,我们这里对对数似然的数学期望式(7.62)求极大,设求得的极大值点为
Θ
t
+
1
{\Theta}^{\,t+1}
Θt+1,则
Θ
t
+
1
=
arg
max
Θ
Q
(
Θ
∣
Θ
t
)
\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{7.65} \end{align}
Θt+1=ΘargmaxQ(Θ∣Θt)(7.65)
从某个初始值
Θ
0
{\Theta}^0
Θ0开始,反复用递推式(7.65)就可以得到一个序列
Θ
0
,
Θ
1
,
Θ
2
,
⋯
,
Θ
t
,
Θ
t
+
1
,
⋯
\begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.66} \end{align}
Θ0,Θ1,Θ2,⋯,Θt,Θt+1,⋯(7.66)
由式(7.65)有
Q
(
Θ
t
+
1
∣
Θ
t
)
=
max
Θ
Q
(
Θ
∣
Θ
t
)
\begin{align*} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})=\mathop{\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \end{align*}
Q(Θt+1∣Θt)=ΘmaxQ(Θ∣Θt)
即有不等式
Q
(
Θ
t
+
1
∣
Θ
t
)
⩾
Q
(
Θ
t
∣
Θ
t
)
\begin{align} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.67} \end{align}
Q(Θt+1∣Θt)⩾Q(Θt∣Θt)(7.67)
由式(7.63)有
R
(
Θ
t
+
1
∣
Θ
t
)
−
R
(
Θ
t
∣
Θ
t
)
=
E
Z
∣
X
,
Θ
t
ln
P
(
Z
∣
X
,
Θ
t
+
1
)
−
E
Z
∣
X
,
Θ
t
ln
P
(
Z
∣
X
,
Θ
t
)
=
E
Z
∣
X
,
Θ
t
ln
P
(
Z
∣
X
,
Θ
t
+
1
)
P
(
Z
∣
X
,
Θ
t
)
⩽
ln
E
Z
∣
X
,
Θ
t
P
(
Z
∣
X
,
Θ
t
+
1
)
P
(
Z
∣
X
,
Θ
t
)
(由Jensen不等式【西瓜书式(12.4)】)
=
ln
∑
Z
∣
X
,
Θ
t
P
(
Z
∣
X
,
Θ
t
)
P
(
Z
∣
X
,
Θ
t
+
1
)
P
(
Z
∣
X
,
Θ
t
)
(由
E
的定义)
=
ln
∑
Z
∣
X
,
Θ
t
P
(
Z
∣
X
,
Θ
t
+
1
)
=
ln
1
=
0
即:
R
(
Θ
t
+
1
∣
Θ
t
)
⩽
R
(
Θ
t
∣
Θ
t
)
\begin{align} & \quad R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1}) -\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}) \notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \leqslant \ln \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \quad \quad \text{(由Jensen不等式【西瓜书式(12.4)】)}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})\frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\quad \text{(由${\mathbb{E} }$的定义)}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}\notag \\ & =\ln 1\notag \\ & =0\notag \\ \text{即: }R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t}) & \leqslant R({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.68} \end{align}
即: R(Θt+1∣Θt)R(Θt+1∣Θt)−R(Θt∣Θt)=Z∣X,ΘtElnP(Z∣X,Θt+1)−Z∣X,ΘtElnP(Z∣X,Θt)=Z∣X,ΘtElnP(Z∣X,Θt)P(Z∣X,Θt+1)⩽lnZ∣X,ΘtEP(Z∣X,Θt)P(Z∣X,Θt+1)(由Jensen不等式【西瓜书式(12.4)】)=lnZ∣X,Θt∑P(Z∣X,Θt)P(Z∣X,Θt)P(Z∣X,Θt+1)(由E的定义)=lnZ∣X,Θt∑P(Z∣X,Θt+1)=ln1=0⩽R(Θt∣Θt)(7.68)
其中,使用Jensen不等式要注意:Jensen不等式是对“下凸”函数而言,若“下凹”则反号,由对数函数图像知
ln
\ln
ln是“下凹”函数,故不等式相反。
由式(7.64)、式(7.67)、式(7.68) 知
L
L
(
Θ
t
+
1
∣
X
)
=
Q
(
Θ
t
+
1
∣
Θ
t
)
−
R
(
Θ
t
+
1
∣
Θ
t
)
(式(7.64)中令
Θ
=
Θ
t
+
1
)
⩾
Q
(
Θ
t
∣
Θ
t
)
−
R
(
Θ
t
∣
Θ
t
)
=
L
L
(
Θ
t
∣
X
)
(式(7.64)中令
Θ
=
Θ
t
)
L
L
(
Θ
t
∣
X
)
=
ln
P
(
X
∣
Θ
t
)
⩽
ln
1
=
0
\begin{align} \mathrm{LL}({\Theta}^{\,t+1}\,|\,\mathbf{X}) & =Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\quad \text{(式(7.64)中令${\Theta}={\Theta}^{\,t+1}$)}\notag \\ & \geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\quad \text{(式(7.64)中令${\Theta}={\Theta}^{\,t}$)} \tag{7.69} \\ \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,{\Theta}^{\,t})\notag \\ & \leqslant \ln 1\notag \\ & =0 \tag{7.70} \end{align}
LL(Θt+1∣X)LL(Θt∣X)=Q(Θt+1∣Θt)−R(Θt+1∣Θt)(式(7.64)中令Θ=Θt+1)⩾Q(Θt∣Θt)−R(Θt∣Θt)=LL(Θt∣X)(式(7.64)中令Θ=Θt)=lnP(X∣Θt)⩽ln1=0(7.69)(7.70)
不等式(7.69)说明序列
{
L
L
(
Θ
t
∣
X
)
}
t
=
0
+
∞
\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{t=0}^{+\infty }
{LL(Θt∣X)}t=0+∞是单调递增,不等式(7.70)说明该序列有界,数学知识告诉我们:单调递增有界必收敛到极大值。 即序列
{
L
L
(
Θ
t
∣
X
)
}
k
=
0
+
∞
\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{k=0}^{+\infty }
{LL(Θt∣X)}k=0+∞是与序列(7.66)(
{
Θ
t
}
k
=
0
+
∞
\{{\Theta}^{\,t}\}_{k=0}^{+\infty }
{Θt}k=0+∞)对应的,且足够大的
t
t
t后,序列(7.66)的
Θ
t
{\Theta}^{\,t}
Θt使得序列
{
L
L
(
Θ
t
∣
X
)
}
\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}
{LL(Θt∣X)}趋于稳定(收敛性),这时,可取足够大的
T
T
T,有
{
lim
t
→
+
∞
L
L
(
Θ
t
∣
X
)
=
max
Θ
∈
序列(7.66)
L
L
(
Θ
∣
X
)
lim
t
→
+
∞
L
L
(
Θ
t
∣
X
)
≈
L
L
(
Θ
T
∣
X
)
\begin{align} \begin{cases} \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})= \mathop{\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X}) \\ \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\thickapprox \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X}) \\ \end{cases} \tag{7.71} \end{align}
⎩
⎨
⎧t→+∞limLL(Θt∣X)=Θ∈序列(7.66)maxLL(Θ∣X)t→+∞limLL(Θt∣X)≈LL(ΘT∣X)(7.71)
设
Θ
∗
∗
=
arg
max
Θ
∈
序列(7.66)
L
L
(
Θ
∣
X
)
≈
arg
Θ
T
L
L
(
Θ
T
∣
X
)
=
Θ
T
(这时
Θ
T
是已由序列(7.66)求出)
\begin{align} {\Theta}^{**} & =\mathop{\arg\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X})\notag \\ & \thickapprox \mathop{\arg}\limits_{{\Theta}^{\,T}} \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X})\notag \\ & ={\Theta}^{\,T}\quad \text{(这时${\Theta}^{\,T}$是已由序列(7.66)求出)} \tag{7.72} \end{align}
Θ∗∗=Θ∈序列(7.66)argmaxLL(Θ∣X)≈ΘTargLL(ΘT∣X)=ΘT(这时ΘT是已由序列(7.66)求出)(7.72)
即
Θ
T
{\Theta}^{\,T}
ΘT(足够大的
T
T
T)作为
Θ
∗
∗
{\Theta}^{**}
Θ∗∗的近似解。
原目标是求式(7.57) Θ ∗ = arg max Θ L L ( Θ ∣ X ) {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) Θ∗=ΘargmaxLL(Θ∣X),而序列(7.66)可视为一条搜寻路径,即最优值 Θ ∗ ∗ {\Theta}^{**} Θ∗∗为式(7.57)中 Θ ∗ {\Theta}^{*} Θ∗的一个特解(搜索到的),因此, Θ T {\Theta}^{\,T} ΘT(足够大的 T T T)可作为 Θ ∗ {\Theta}^{*} Θ∗的近似解。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权