EM算法迭代在数据缺失,但已知分布的情况下寻求关于
θ
θ
最大化的似然函数。从而找到
θ
θ
最有可能值。即用这个值来代替
θ
θ
比如完全样本是
(x1,…,xn)
(
x
1
,
…
,
x
n
)
但是我只观测到
(x1,…,xm)
(
x
1
,
…
,
x
m
)
(m<n)
(
m
<
n
)
剩下的
(xm+1,…,xn)
(
x
m
+
1
,
…
,
x
n
)
是缺失的。令
z=(xm+1,…,xn)
z
=
(
x
m
+
1
,
…
,
x
n
)
是已知观测值后完全样本唯一的随机变量。对随机变量在
θ(t)
θ
(
t
)
的条件下求期望,使函数中只有变量
θ
θ
,和目前认为的最优结果
θ(t)
θ
(
t
)
, 从而可以找到下一次迭代的结果。
定义的期望函数
Q(θ|θ(t))=E(logL(θ|Y)|x,θ(t))
Q
(
θ
|
θ
(
t
)
)
=
E
(
l
o
g
L
(
θ
|
Y
)
|
x
,
θ
(
t
)
)
E(logfY(y|θ)|x,θ(t))
E
(
l
o
g
f
Y
(
y
|
θ
)
|
x
,
θ
(
t
)
)
这个公式,是似然函数在
θ
θ
的条件下,但是期望是在
θ(t)
θ
(
t
)
的条件下。
∫[log(fY(y|θ))]fZ|X(z|x,θ(t))dz
∫
[
l
o
g
(
f
Y
(
y
|
θ
)
)
]
f
Z
|
X
(
z
|
x
,
θ
(
t
)
)
d
z
是对已知观测值的样本值的所有随机变量积分。