首先,把使用的符号声明一下。
Y
:
观
测
变
量
各
分
量
i
i
d
,
即
P
(
Y
)
=
P
(
y
1
,
y
2
,
.
.
.
,
y
N
)
=
∏
i
=
1
N
P
(
y
i
)
Y:观测变量 \quad 各分量iid,即P(Y)=P(y_1,y_2,...,y_N)=\prod_{i=1}^{N}P(y_i)
Y:观测变量各分量iid,即P(Y)=P(y1,y2,...,yN)=∏i=1NP(yi)
Z
:
隐
变
量
Z:隐变量
Z:隐变量
Θ
:
参
数
\Theta :参数
Θ:参数
(
Y
,
Z
)
:
完
全
数
据
(Y,Z):完全数据
(Y,Z):完全数据
我们知道,EM算法的迭代公式为 Θ t + 1 = a r g m a x Θ ∫ Z P ( Z ∣ Y , Θ t ) l o g P ( Y , Z ∣ Θ ) d Z \Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ Θt+1=argmaxΘ∫ZP(Z∣Y,Θt)logP(Y,Z∣Θ)dZ,现在依次推导其导出及收敛性。
1.导出
使用最大似然推导,我们的目的是使得
l
o
g
P
(
Y
∣
Θ
)
logP(Y|\Theta)
logP(Y∣Θ)最大,故从这个角度出发。
l
o
g
P
(
Y
∣
Θ
)
=
l
o
g
P
(
Y
,
Z
∣
Θ
)
−
l
o
g
P
(
Z
∣
Y
,
Θ
)
引
入
Q
(
Z
)
≠
0
=
l
o
g
P
(
Y
,
Z
∣
Θ
)
Q
(
Z
)
−
l
o
g
P
(
Z
∣
Y
,
Θ
)
Q
(
Z
)
\begin{aligned} logP(Y|\Theta) & =logP(Y,Z|\Theta) - logP(Z|Y,\Theta) \\ 引入Q(Z)\neq0\qquad \qquad \qquad & = log\frac{P(Y,Z|\Theta)}{Q(Z)} - log\frac{P(Z|Y,\Theta)}{Q(Z)} \end{aligned}
logP(Y∣Θ)引入Q(Z)=0=logP(Y,Z∣Θ)−logP(Z∣Y,Θ)=logQ(Z)P(Y,Z∣Θ)−logQ(Z)P(Z∣Y,Θ)
两边对
Q
(
Z
)
Q(Z)
Q(Z)求期望:
左
边
=
∫
Z
Q
(
Z
)
l
o
g
P
(
Y
∣
Θ
)
d
Z
=
l
o
g
P
(
Y
∣
Θ
)
∫
Z
Q
(
Z
)
d
Z
=
l
o
g
P
(
Y
∣
Θ
)
⋅
1
=
l
o
g
P
(
Y
∣
Θ
)
右
边
=
∫
Z
Q
(
Z
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
Q
(
Z
)
d
Z
−
∫
Z
Q
(
Z
)
l
o
g
P
(
Z
∣
Y
,
Θ
)
Q
(
Z
)
d
Z
=
E
L
B
O
+
K
L
(
Q
(
Z
)
∣
∣
P
(
Z
∣
Y
,
Θ
)
)
\begin{aligned} 左边 &=\int_{Z}Q(Z)logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\int_{Z}Q(Z)dZ\\ &=logP(Y|\Theta)\cdot1\\ &=logP(Y|\Theta)\\ 右边 &=\int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ - \int_{Z}Q(Z)log\frac{P(Z|Y,\Theta)}{Q(Z)} dZ\\ &=ELBO + KL(Q(Z)||P(Z|Y,\Theta)) \end{aligned}
左边右边=∫ZQ(Z)logP(Y∣Θ)dZ=logP(Y∣Θ)∫ZQ(Z)dZ=logP(Y∣Θ)⋅1=logP(Y∣Θ)=∫ZQ(Z)logQ(Z)P(Y,Z∣Θ)dZ−∫ZQ(Z)logQ(Z)P(Z∣Y,Θ)dZ=ELBO+KL(Q(Z)∣∣P(Z∣Y,Θ))
右边的
E
L
B
O
ELBO
ELBO(Evidence lower bound)是似然
l
o
g
P
(
Y
∣
Θ
)
logP(Y|\Theta)
logP(Y∣Θ)的一个下界,因为
K
L
(
Q
(
Z
)
∣
∣
P
(
Z
∣
Y
,
Θ
)
≥
0
KL(Q(Z)||P(Z|Y,\Theta)\geq0
KL(Q(Z)∣∣P(Z∣Y,Θ)≥0,故
l
o
g
P
(
Y
∣
Θ
)
≥
E
L
B
O
logP(Y|\Theta)\geq ELBO
logP(Y∣Θ)≥ELBO(当
K
L
(
Q
(
Z
)
∣
∣
P
(
Z
∣
Y
,
Θ
)
=
0
KL(Q(Z)||P(Z|Y,\Theta)=0
KL(Q(Z)∣∣P(Z∣Y,Θ)=0时取等号)。因此,最大化似然的过程可以转化为最大化
E
L
B
O
ELBO
ELBO的过程。现在回到开头,我们导出
Θ
t
+
1
=
a
r
g
m
a
x
Θ
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
d
Z
\Theta^{t+1}=argmax_\Theta\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta)dZ
Θt+1=argmaxΘ∫ZP(Z∣Y,Θt)logP(Y,Z∣Θ)dZ,即在已知
Θ
t
\Theta^{t}
Θt推导
Θ
t
+
1
\Theta^{t+1}
Θt+1,此时
Q
(
Z
)
=
P
(
Z
∣
Y
,
Θ
t
)
Q(Z)=P(Z|Y,\Theta^{t})
Q(Z)=P(Z∣Y,Θt),则在第t+1
步最大化似然等价于最大化
E
L
B
O
ELBO
ELBO。
Θ
t
+
1
=
a
r
g
m
a
x
Θ
l
o
g
P
(
Y
∣
Θ
)
=
a
r
g
m
a
x
Θ
E
L
B
O
=
a
r
g
m
a
x
Θ
∫
Z
Q
(
Z
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
Q
(
Z
)
d
Z
=
a
r
g
m
a
x
Θ
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
P
(
Z
∣
Y
,
Θ
t
)
d
Z
=
a
r
g
m
a
x
Θ
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
d
Z
−
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Z
∣
Y
,
Θ
t
)
d
Z
=
a
r
g
m
a
x
Θ
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
d
Z
\begin{aligned} \Theta^{t+1} &=argmax_\Theta logP(Y|\Theta)\\ &=argmax_\Theta ELBO\\ &=argmax_\Theta \int_{Z}Q(Z)log\frac{P(Y,Z|\Theta)}{Q(Z)} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Y,Z|\Theta)}{P(Z|Y,\Theta^{t})} dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ - \int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta^{t}) dZ\\ &=argmax_\Theta \int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ \end{aligned}
Θt+1=argmaxΘlogP(Y∣Θ)=argmaxΘELBO=argmaxΘ∫ZQ(Z)logQ(Z)P(Y,Z∣Θ)dZ=argmaxΘ∫ZP(Z∣Y,Θt)logP(Z∣Y,Θt)P(Y,Z∣Θ)dZ=argmaxΘ∫ZP(Z∣Y,Θt)logP(Y,Z∣Θ)dZ−∫ZP(Z∣Y,Θt)logP(Z∣Y,Θt)dZ=argmaxΘ∫ZP(Z∣Y,Θt)logP(Y,Z∣Θ)dZ
此处解释一下上面公式的最后一步等号是怎么得来的,因为后面那项的
Θ
t
\Theta^{t}
Θt是已知的,即与
Θ
\Theta
Θ无关,故在求关于
Θ
\Theta
Θ的极大时,它求导后为0。至此,EM算法的导出得证。当然,还可以使用Jesen不等式的方法。
2.收敛性证明
所谓收敛性证明,即证明
l
o
g
P
(
Y
∣
Θ
)
logP(Y|\Theta)
logP(Y∣Θ)是递增的,从而它可以在迭代过程中取得极大值。首先,同样地把对数似然写开。
l
o
g
P
(
Y
∣
Θ
)
=
l
o
g
P
(
Y
,
Z
∣
Θ
)
−
l
o
g
P
(
Z
∣
Y
,
Θ
)
logP(Y|\Theta) =logP(Y,Z|\Theta) - logP(Z|Y,\Theta)
logP(Y∣Θ)=logP(Y,Z∣Θ)−logP(Z∣Y,Θ)
两边对
P
(
Z
∣
Y
,
Θ
t
)
P(Z|Y,\Theta^{t})
P(Z∣Y,Θt)求期望:
左
边
=
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
∣
Θ
)
d
Z
=
l
o
g
P
(
Y
∣
Θ
)
右
边
=
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Y
,
Z
∣
Θ
)
d
Z
−
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Z
∣
Y
,
Θ
)
d
Z
=
Q
(
Θ
,
Θ
t
)
−
H
(
Θ
,
Θ
t
)
则
证
明
似
然
函
数
递
增
等
价
于
证
明
[
Q
(
Θ
t
+
1
,
Θ
t
)
−
H
(
Θ
t
+
1
,
Θ
t
)
]
−
[
Q
(
Θ
t
,
Θ
t
)
−
H
(
Θ
t
,
Θ
t
)
]
≥
0
,
首
先
,
Q
(
Θ
t
+
1
,
Θ
t
)
−
Q
(
Θ
t
,
Θ
t
)
≥
0
是
显
然
的
,
因
为
Θ
t
+
1
=
a
r
g
m
a
x
Θ
Q
(
Θ
,
Θ
t
)
,
现
在
即
需
证
H
(
Θ
t
,
Θ
t
)
−
H
(
Θ
t
+
1
,
Θ
t
)
≥
0.
H
(
Θ
t
,
Θ
t
)
−
H
(
Θ
t
+
1
,
Θ
t
)
=
∫
Z
P
(
Z
∣
Y
,
Θ
t
)
l
o
g
P
(
Z
∣
Y
,
Θ
t
)
P
(
Z
∣
Y
,
Θ
t
+
1
)
d
Z
=
K
L
(
P
(
Z
∣
Y
,
Θ
t
)
∣
∣
P
(
Z
∣
Y
,
Θ
t
+
1
)
)
≥
0
\begin{aligned} 左边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y|\Theta)dZ\\ &=logP(Y|\Theta)\\ 右边&=\int_{Z}P(Z|Y,\Theta^{t})logP(Y,Z|\Theta) dZ-\int_{Z}P(Z|Y,\Theta^{t})logP(Z|Y,\Theta) dZ\\ &=Q(\Theta,\Theta^{t}) - H(\Theta,\Theta^{t}) \end{aligned} \\ 则证明似然函数递增等价于证明[Q(\Theta^{t+1},\Theta^{t}) - H(\Theta^{t+1},\Theta^{t})]-[Q(\Theta^{t},\Theta^{t}) - H(\Theta^{t},\Theta^{t})]\geq0,\\ 首先,Q(\Theta^{t+1},\Theta^{t})-Q(\Theta^{t},\Theta^{t})\geq0是显然的,因为\Theta^{t+1}=argmax_\Theta Q(\Theta,\Theta^{t}),现在即需 证\quad\\H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0.\\ \begin{aligned} H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t}) &=\int_{Z}P(Z|Y,\Theta^{t})log\frac{P(Z|Y,\Theta^{t})}{P(Z|Y,\Theta^{t+1})} dZ\\ &=KL(P(Z|Y,\Theta^{t})||P(Z|Y,\Theta^{t+1}))\\ &\geq0 \end{aligned}
左边右边=∫ZP(Z∣Y,Θt)logP(Y∣Θ)dZ=logP(Y∣Θ)=∫ZP(Z∣Y,Θt)logP(Y,Z∣Θ)dZ−∫ZP(Z∣Y,Θt)logP(Z∣Y,Θ)dZ=Q(Θ,Θt)−H(Θ,Θt)则证明似然函数递增等价于证明[Q(Θt+1,Θt)−H(Θt+1,Θt)]−[Q(Θt,Θt)−H(Θt,Θt)]≥0,首先,Q(Θt+1,Θt)−Q(Θt,Θt)≥0是显然的,因为Θt+1=argmaxΘQ(Θ,Θt),现在即需证H(Θt,Θt)−H(Θt+1,Θt)≥0.H(Θt,Θt)−H(Θt+1,Θt)=∫ZP(Z∣Y,Θt)logP(Z∣Y,Θt+1)P(Z∣Y,Θt)dZ=KL(P(Z∣Y,Θt)∣∣P(Z∣Y,Θt+1))≥0
上述后面的
H
(
Θ
t
,
Θ
t
)
−
H
(
Θ
t
+
1
,
Θ
t
)
≥
0
H(\Theta^{t},\Theta^{t})-H(\Theta^{t+1},\Theta^{t})\geq0
H(Θt,Θt)−H(Θt+1,Θt)≥0也可以使用Jesen不等式证明,此处略。至此,收敛性得证。