EM的使用场景为: 已知“结构”(如,贝叶斯网)和“可观察数据”的一个数据集,隐变量的数据未知,求参数。
EM算法的步骤:反复循环执行E步和M步
EM算法的步骤
7.9 EM原理的详细数学推导知,取序列(7.66)中的 Θ t {\Theta}^{\,t} Θt(足够大的 t t t)作为 Θ ∗ {\Theta}^{*} Θ∗的近似解。
设从某个初始值
Θ
0
{\Theta}^0
Θ0开始,生成序列(7.66)(为叙述方便,再写一遍:生成如下序列(7.73))
Θ
0
,
Θ
1
,
Θ
2
,
⋯
,
Θ
t
,
Θ
t
+
1
,
⋯
\begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.73} \end{align}
Θ0,Θ1,Θ2,⋯,Θt,Θt+1,⋯(7.73)
的方法是反复循环执行如下两步骤(E步和M步):
-
E步(指 E \mathbb{E} E):
(1)推断隐变量分布: P ( Z ∣ X , Θ t ) P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}) P(Z∣X,Θt)
(2)求 L L \mathrm{LL} LL的期望,即 Q Q Q的表达式(其中 E \mathbb{E} E用到(1)的结果):
Q ( Θ ∣ Θ t ) = d e f E Z ∣ X , Θ t L L ( Θ ∣ X , Z ) \begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) \tag{7.74} \end{align} Q(Θ∣Θt)=defZ∣X,ΘtELL(Θ∣X,Z)(7.74) -
M步(指 max \max max):
Θ t + 1 = arg max Θ Q ( Θ ∣ Θ t ) \begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{7.75} \end{align} Θt+1=ΘargmaxQ(Θ∣Θt)(7.75)
生成序列(7.73)后,取足够大的 t t t, Θ t {\Theta}^{\,t} Θt即为最优参数 Θ ∗ {\Theta}^* Θ∗的估值。
EM算法过程也体现了对两个 Z , Θ \mathbf{Z},\Theta Z,Θ变量采用“交替固定”的处理思路。
上述是基于MLE的EM算法,当基于MAP时,只需将M步改为下式即可:
Θ
t
+
1
=
arg
max
Θ
Q
(
Θ
∣
Θ
t
)
+
ln
P
(
Θ
)
\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}\ Q(\Theta\,|\,{\Theta}^{\,t})+\ln P(\Theta) \tag{7.76} \end{align}
Θt+1=Θargmax Q(Θ∣Θt)+lnP(Θ)(7.76)
特别地,当数据集 D D D中没有缺失属性(隐变量)时,有两种办法处理:
(1)作为0个隐变量时,式(7.74)变为
Q
(
Θ
∣
Θ
t
)
=
L
L
(
Θ
∣
X
)
=
L
L
(
Θ
∣
D
)
\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) & =\mathrm{LL}(\Theta\,|\,\mathbf{X})\notag \\ & =\mathrm{LL}(\Theta\,|\,D) \tag{7.77} \end{align}
Q(Θ∣Θt)=LL(Θ∣X)=LL(Θ∣D)(7.77)
即为数据集
D
D
D的对数似然。 这时M步即为极大似然估计,当过程能推导出递推式时,也可以用EM步骤(例如,【西瓜书式(9.32)】推导出参数【西瓜书式(9.34)(9.35)(9.349)】,替换掉中间变量
γ
j
i
{\gamma}_{ji}
γji即可得递推式)。
(2)将类标识视为隐变量,再使用EM算法;
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.9 EM原理的详细数学推导
下一篇:7.11 期望的计算、再谈贝叶斯图络学习