概括
EM算法是用来求解极大似然函数的一种数学方法,在机器学习中的很多地方都可以见到他的影子,如GMM,HMM,LDA,PLSA(目前本人只是接触过这几个)等等。
先从最经典的GMM算法说起
加入现在给你一堆数据分别为h1,h2,h3…代表n名学生的身高,我们又知道学生的身高服从参数为(μ1,σ1)的高斯分布,那么我们很自然的想到用极大似然估计的想法求出两个参数。但是如果现在h1,h2,h3…n名同学的身高给出后,我们并不知道他们是男是女,男生身高服从参数为(μ1,σ1)的高斯分布,女生身高服从参数为(μ2,σ2)的高斯分布,我们又该如何去计算呢?仍然用极大似然估计的方法如下:
m
a
x
∑
i
=
1
100
l
o
g
P
{
h
i
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
max\sum_{i=1}^{100}logP\{hi|\mu1,\sigma1,\mu2,\sigma2\}
maxi=1∑100logP{hi∣μ1,σ1,μ2,σ2}
但是我们并不知道每个人是属于男生还是女生,设Z为性别变量,有
(1)
m
a
x
∑
i
=
1
100
l
o
g
∑
z
=
1
2
P
{
h
i
,
z
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
max\sum_{i=1}^{100}log\sum_{z=1}^{2}P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}\tag{1}
maxi=1∑100logz=1∑2P{hi,z∣μ1,σ1,μ2,σ2}(1)
正常求导去做,但是我们发现对数当中求导数很不好做所以,就有了EM算法,再看EM算法之前我们先来了解已下Jeson不等式
若
f
(
x
)
f(x)
f(x)是函数,那么有
f
(
E
(
X
)
)
≥
q
E
(
f
(
X
)
)
f(E(X))\geq qE(f(X))
f(E(X))≥qE(f(X))
ps:其实是根据凸函数不等式得来的
先对公式(1)做一个简单的变形上面的公式
(2)
m
a
x
∑
i
=
1
100
l
o
g
∑
z
=
1
2
Q
(
z
)
P
{
h
i
,
z
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
Q
(
z
)
max\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \tag{2}
maxi=1∑100logz=1∑2Q(z)Q(z)P{hi,z∣μ1,σ1,μ2,σ2}(2)
其中Q(z)是z的一个分布,所以log里面是一个求
P
{
h
i
,
z
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
Q
(
z
)
\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}
Q(z)P{hi,z∣μ1,σ1,μ2,σ2}关于
Q
(
z
)
Q(z)
Q(z)的均值
log是凸函书,根据jeson不等式公式2(先去点max)为
∑
i
=
1
100
l
o
g
∑
z
=
1
2
Q
(
z
)
P
{
h
i
,
z
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
Q
(
z
)
≥
∑
i
=
1
100
∑
z
=
1
2
Q
(
z
)
l
o
g
P
{
h
i
,
z
∣
μ
1
,
σ
1
,
μ
2
,
σ
2
}
Q
(
z
)
\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \geq \sum_{i=1}^{100}\sum_{z=1}^{2}Q(z)log\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}
i=1∑100logz=1∑2Q(z)Q(z)P{hi,z∣μ1,σ1,μ2,σ2}≥i=1∑100z=1∑2Q(z)logQ(z)P{hi,z∣μ1,σ1,μ2,σ2}
这样一来等号就全部都移到左边去了,log中就没有连加项了。
我们现在来对问题一般化
设要求的问题为
∑
Y
l
o
g
P
{
Y
;
θ
}
=
∑
Y
l
o
g
∑
z
P
{
Y
,
Z
;
θ
}
=
∑
Y
l
o
g
∑
z
Q
(
z
)
P
{
Y
,
Z
;
θ
}
Q
(
z
)
\sum_{Y}logP\{Y;\theta\}=\sum_{Y}log\sum_{z}P\{Y,Z;\theta\}=\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)}
Y∑logP{Y;θ}=Y∑logz∑P{Y,Z;θ}=Y∑logz∑Q(z)Q(z)P{Y,Z;θ}
其
Q
(
z
)
Q(z)
Q(z)是z的分布
∑
Y
l
o
g
∑
z
Q
(
z
)
P
{
Y
,
Z
;
θ
}
Q
(
z
)
≥
∑
Y
∑
z
Q
(
z
)
l
o
g
p
(
Y
,
Z
;
θ
)
Q
(
z
)
\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)} \geq \sum_Y\sum_zQ(z)log\frac{p(Y,Z;\theta)}{Q(z)}
Y∑logz∑Q(z)Q(z)P{Y,Z;θ}≥Y∑z∑Q(z)logQ(z)p(Y,Z;θ)
当
Q
(
z
)
=
p
(
z
∣
x
;
θ
)
Q(z)=p(z|x;\theta)
Q(z)=p(z∣x;θ)的时候等号成立(也是根据凸函数的性质得出的,此处不再证明)
图像的几何意义如上图所示,这里Y为X。原式
≥
\geq
≥号恒成立。而由条件
Q
(
z
)
=
p
(
z
∣
x
;
θ
)
Q(z)=p(z|x;\theta)
Q(z)=p(z∣x;θ)可以知道,只有此条件成立的时候才能取等号,我们现在这样考虑这个问题。无论
θ
\theta
θ取什么值,只要Q(z)满足上面的条件等式就能成立,那么我们随便取一个
θ
\theta
θ,令
θ
=
θ
1
\theta=\theta_1
θ=θ1,然后根据
Q
(
z
)
=
p
(
z
∣
x
;
θ
)
Q(z)=p(z|x;\theta)
Q(z)=p(z∣x;θ)得出Q(z),记作
Q
(
z
1
)
=
p
(
z
∣
x
;
θ
1
)
Q(z1)=p(z|x;\theta_1)
Q(z1)=p(z∣x;θ1),现在只将
Q
(
z
1
)
Q(z1)
Q(z1)带入不等式中,注意只将
Q
(
z
1
)
Q(z1)
Q(z1)带入,
θ
\theta
θ依然是个参数,注意到无论
θ
\theta
θ和
Q
(
z
)
Q(z)
Q(z)取什么值,不等式恒成立。只有
θ
1
\theta_1
θ1和
Q
(
z
1
)
Q(z1)
Q(z1)同时带入进去,等式才能成立,但是现在我们只是带入了
θ
1
\theta_1
θ1所以不等式是严格的大于,此时就和上图完整的对照起来了,当这时候的
θ
1
\theta_1
θ1就是上图的
θ
o
l
d
\theta_{old}
θold,因为现在Q(z)是已知的,所以只有
θ
\theta
θ是未知的,可以对
θ
\theta
θ求导,求完之后再带回到原来的公式中,就可以得到更优的结果。然后再用心的
θ
n
e
w
\theta_{new}
θnew求出
Q
(
z
)
=
p
(
z
∣
x
;
θ
n
e
w
)
Q(z)=p(z|x;\theta_{new})
Q(z)=p(z∣x;θnew)中的
Q
(
z
)
Q(z)
Q(z)之后继续上面的步骤,当然一开始的时候要初始化一个
θ
=
θ
0
\theta= \theta_0
θ=θ0才能开始迭代过程。
最后EM能得到什么呢,能得到 P ( Z ∣ Y , θ ) P(Z|Y,\theta) P(Z∣Y,θ)的分布,还有参数 θ \theta θ的最优结果。EM算法中将Z成为隐变量,也就是问题中不能直接观测到的变量。