一、EM算法
概率模型有时既含有观测变量,又含有隐变量(latent variable)。如果只含观测变量,那么直接用极大似然估计法估计模型参数即可;但当模型含有隐变量时,就需要采用EM算法,EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。
1.1 EM算法
用 Y Y Y表示观测随机变量的数据, Z Z Z表示隐随机变量的数据, Y Y Y和 Z Z Z连在一起称为完全数据。假设给定观测数据 Y Y Y,其概率分布是 P ( Y ∣ θ ) P(Y|\theta) P(Y∣θ),其中 θ \theta θ是需要估计的模型参数, Y Y Y和 Z Z Z的联合概率分布是 P ( Y , Z ∣ θ ) P(Y,Z|\theta) P(Y,Z∣θ),那么完全数据的对数似然函数是 log P ( Y , Z ∣ θ ) \log P(Y,Z|\theta) logP(Y,Z∣θ), P ( Z ∣ Y , θ ) P(Z|Y,\theta) P(Z∣Y,θ)是给定观测数据 Y Y Y和参数 θ \theta θ下隐变量 Z Z Z的条件概率分布,EM算法通过迭代求解 L ( θ ) = log P ( Y ∣ θ ) L(\theta)=\log P(Y|\theta) L(θ)=logP(Y∣θ)的极大似然估计:
∙
\bullet\quad
∙选择参数的初始值
θ
(
0
)
\theta^{(0)}
θ(0)
∙
E
\bullet\quad E
∙E步:记
θ
(
i
)
\theta^{(i)}
θ(i)为第
i
i
i次迭代参数
θ
\theta
θ的估计值,在第
i
+
1
i+1
i+1次,计算
Q
(
θ
,
θ
(
i
)
)
=
E
Z
[
log
P
(
Y
,
Z
∣
θ
)
∣
Y
,
θ
(
i
)
]
=
∑
Z
log
P
(
Y
,
Z
∣
θ
)
P
(
Z
∣
Y
,
θ
(
i
)
)
(1)
Q(\theta, \theta^{(i)})=E_Z[\log P(Y, Z|\theta)|Y,\theta^{(i)}]=\sum_{Z}\log P(Y,Z|\theta)P(Z|Y,\theta^{(i)})\tag1
Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)]=Z∑logP(Y,Z∣θ)P(Z∣Y,θ(i))(1)
其中,
P
(
Z
∣
Y
,
θ
(
i
)
)
P(Z|Y,\theta^{(i)})
P(Z∣Y,θ(i))是在给定观测数据
Y
Y
Y和当前的参数估计
θ
(
i
)
\theta^{(i)}
θ(i)下隐变量数据
Z
Z
Z的条件概率分布,
Q
(
θ
,
θ
(
i
)
)
Q(\theta, \theta^{(i)})
Q(θ,θ(i))的第1个变元表示要极大化的参数,第二个变元表示参数的当前估计值,每次迭代实际在求
Q
(
θ
,
θ
(
i
)
)
Q(\theta, \theta^{(i)})
Q(θ,θ(i))及其极大。
∙ M \bullet\quad M ∙M步:求使 Q ( θ , θ ( i ) ) Q(\theta,\theta^{(i)}) Q(θ,θ(i))极大化的 θ \theta θ,确定第 i + 1 i+1 i+1步迭代的参数的估计值 θ ( i + 1 ) \theta^{(i+1)} θ(i+1) θ ( i + 1 ) = arg max θ Q ( θ , θ ( i ) ) (2) \theta^{(i+1)}=\arg \max_\theta Q(\theta,\theta^{(i)})\tag2 θ(i+1)=argθmaxQ(θ,θ(i))(2)
∙ \bullet\quad ∙重复 E E E步和 M M M步,直至收敛
Q
Q
Q函数:
完全数据的对数似然函数
log
P
(
Y
,
Z
∣
θ
)
\log P(Y,Z|\theta)
logP(Y,Z∣θ) 关于在给定观测数据
Y
Y
Y和当前参数
θ
(
i
)
\theta^{(i)}
θ(i)下 对未观测数据
Z
Z
Z的条件概率分布
P
(
Z
∣
Y
,
θ
(
i
)
)
P(Z|Y,\theta^{(i)})
P(Z∣Y,θ(i))的期望 称为
Q
Q
Q函数,即
Q
(
θ
,
θ
(
i
)
)
=
E
Z
[
log
P
(
Y
,
Z
∣
θ
)
∣
Y
,
θ
(
i
)
]
(3)
Q(\theta, \theta^{(i)})=E_Z[\log P(Y, Z|\theta)|Y,\theta^{(i)}]\tag3
Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)](3)
1.2 EM算法的导出
为什么EM算法能近似实现对观测数据的极大似然估计呢?
对于含有隐变量的概率模型,目标是极大化观测数据
Y
Y
Y关于参数
θ
\theta
θ的对数似然函数,即极大化
L
(
θ
)
=
log
P
(
Y
∣
θ
)
=
log
∑
Z
P
(
Y
,
Z
∣
θ
)
=
log
(
∑
Z
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
)
(4)
L(\theta)=\log P(Y|\theta)=\log \sum_ZP(Y,Z|\theta)=\log (\sum_ZP(Z|\theta)P(Y|Z,\theta))\tag4
L(θ)=logP(Y∣θ)=logZ∑P(Y,Z∣θ)=log(Z∑P(Z∣θ)P(Y∣Z,θ))(4)
注意到
P
(
Y
,
Z
∣
θ
)
=
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
P(Y,Z|\theta)=P(Z|\theta)P(Y|Z,\theta)
P(Y,Z∣θ)=P(Z∣θ)P(Y∣Z,θ)
极大化 ( 4 ) (4) (4)式的主要困难是含有未观测数据并有包含和(或积分)的对数。
EM算法是通过逐步迭代近似极大化
L
(
θ
)
L(\theta)
L(θ)的。假设
θ
(
i
)
\theta^{(i)}
θ(i)为第
i
i
i次迭代参数
θ
\theta
θ的估计值,我们希望新的估计值
θ
\theta
θ能使
L
(
θ
)
L(\theta)
L(θ)增加,即
L
(
θ
)
>
L
(
θ
(
i
)
)
L(\theta)\gt L(\theta^{(i)})
L(θ)>L(θ(i)),为此,考虑它们的差
L
(
θ
)
−
L
(
θ
(
i
)
)
=
log
(
∑
Z
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
)
−
log
P
(
Y
∣
θ
(
i
)
)
(5)
L(\theta) - L(\theta^{(i)})=\log(\sum_ZP(Z|\theta)P(Y|Z,\theta))-\log P(Y|\theta^{(i)})\tag5
L(θ)−L(θ(i))=log(Z∑P(Z∣θ)P(Y∣Z,θ))−logP(Y∣θ(i))(5)
利用Jensen不等式[1]得到其下界
L
(
θ
)
−
L
(
θ
(
i
)
)
=
log
(
∑
Z
P
(
Z
∣
Y
,
θ
(
i
)
)
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
P
(
Z
∣
Y
,
θ
(
i
)
)
)
−
log
P
(
Y
∣
θ
(
i
)
)
L(\theta) - L(\theta^{(i)})=\log(\sum_Z P(Z|Y,\theta^{(i)})\frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})})-\log P(Y|\theta^{(i)})
L(θ)−L(θ(i))=log(Z∑P(Z∣Y,θ(i))P(Z∣Y,θ(i))P(Z∣θ)P(Y∣Z,θ))−logP(Y∣θ(i))
≥
∑
Z
P
(
Z
∣
Y
,
θ
(
i
)
)
log
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
P
(
Z
∣
Y
,
θ
(
i
)
)
−
log
P
(
Y
∣
θ
(
i
)
)
\ge\sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}-\log P(Y|\theta^{(i)})
≥Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Z∣θ)P(Y∣Z,θ)−logP(Y∣θ(i))
=
∑
Z
P
(
Z
∣
Y
,
θ
(
i
)
)
log
P
(
Z
∣
θ
)
P
(
Y
∣
Z
,
θ
)
P
(
Z
∣
Y
,
θ
(
i
)
)
P
(
Y
∣
θ
(
i
)
)
(6)
=\sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\tag6
=Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣θ(i))P(Z∣θ)P(Y∣Z,θ)(6)
令 B ( θ , θ ( i ) ) = L ( θ ( i ) ) + ∑ Z P ( Z ∣ Y , θ ( i ) ) log P ( Z ∣ θ ) P ( Y ∣ Z , θ ) P ( Z ∣ Y , θ ( i ) ) P ( Y ∣ θ ( i ) ) B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})} B(θ,θ(i))=L(θ(i))+Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣θ(i))P(Z∣θ)P(Y∣Z,θ),则 L ( θ ) ≥ B ( θ , θ ( i ) ) L(\theta)\ge B(\theta,\theta^{(i)}) L(θ)≥B(θ,θ(i))
即函数 B ( θ , θ ( i ) ) B(\theta,\theta^{(i)}) B(θ,θ(i))是 L ( θ ) L(\theta) L(θ)的一个下界,为了使 L ( θ ) L(\theta) L(θ)尽可能增大,可选择 θ ( i + 1 ) \theta^{(i+1)} θ(i+1)使 B ( θ , θ ( i ) ) B(\theta,\theta^{(i)}) B(θ,θ(i))尽可能增大,即 θ ( i + 1 ) = arg max θ B ( θ , θ ( i ) ) (7) \theta^{(i+1)}=\arg \max_\theta B(\theta,\theta^{(i)})\tag7 θ(i+1)=argθmaxB(θ,θ(i))(7)
所以 θ ( i + 1 ) = arg max θ ( L ( θ ( i ) ) + ∑ Z P ( Z ∣ Y , θ ( i ) ) log P ( Z ∣ θ ) P ( Y ∣ Z , θ ) P ( Z ∣ Y , θ ( i ) ) P ( Y ∣ θ ( i ) ) ) \theta^{(i+1)}=\arg \max_\theta (L(\theta^{(i)})+\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}) θ(i+1)=argθmax(L(θ(i))+Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣θ(i))P(Z∣θ)P(Y∣Z,θ)) = arg max θ ( ∑ Z P ( Z ∣ Y , θ ( i ) ) log P ( Z ∣ θ ) P ( Y ∣ Z , θ ) P ( Z ∣ Y , θ ( i ) ) P ( Y ∣ θ ( i ) ) ) =\arg \max_\theta (\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}) =argθmax(Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣θ(i))P(Z∣θ)P(Y∣Z,θ)) = arg max θ ∑ Z P ( Z ∣ Y , θ ( i ) ) log ( P ( Y ∣ Z , θ ) P ( Z ∣ θ ) ) =\arg \max_\theta \sum\limits_Z P(Z|Y,\theta^{(i)})\log (P(Y|Z,\theta)P(Z|\theta)) =argθmaxZ∑P(Z∣Y,θ(i))log(P(Y∣Z,θ)P(Z∣θ)) = arg max θ ∑ Z P ( Z ∣ Y , θ ( i ) ) log ( P ( Y , Z ∣ θ ) ) =\arg \max_\theta \sum\limits_Z P(Z|Y,\theta^{(i)})\log (P(Y, Z|\theta)) =argθmaxZ∑P(Z∣Y,θ(i))log(P(Y,Z∣θ)) = arg max θ Q ( θ , θ ( i ) ) (8) =\arg \max_\theta Q(\theta,\theta^{(i)})\tag8 =argθmaxQ(θ,θ(i))(8)
EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。
1.3 EM算法的收敛
设 θ ( i ) ( i = 1 , 2 , ⋯ ) \theta^{(i)}(i=1,2,\cdots) θ(i)(i=1,2,⋯)为EM算法得到参数估计序列, P ( Y ∣ θ ( i ) ) P(Y|\theta^{(i)}) P(Y∣θ(i))为对应的似然函数序列,则 P ( Y ∣ θ ( i ) ) P(Y|\theta^{(i)}) P(Y∣θ(i))是单调递增的,即 P ( Y ∣ θ ( i + 1 ) ) ≥ P ( Y ∣ θ ( i ) ) (9) P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})\tag9 P(Y∣θ(i+1))≥P(Y∣θ(i))(9)
EM算法不能保证找到全局最优值,因此初始值的选择会对最后的结果产生影响,常用的办法是选取几个不同的初始值进行迭代,然后对得到的各个估计值加以比较,从中选择最好的。
二、高斯混合模型
2.1 高斯混合模型
高斯混合模型是指具有如下形式的概率分布模型
P
(
y
∣
θ
)
=
∑
k
=
1
K
α
k
ϕ
(
y
∣
θ
k
)
(10)
P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)\tag{10}
P(y∣θ)=k=1∑Kαkϕ(y∣θk)(10)
其中,
α
k
\alpha_k
αk是系数,
α
k
≥
0
,
∑
k
=
1
K
α
k
=
1
\alpha_k\ge0, \sum\limits_{k=1}^K\alpha_k=1
αk≥0,k=1∑Kαk=1,
ϕ
(
y
∣
θ
k
)
\phi(y|\theta_k)
ϕ(y∣θk)是高斯分布密度函数,
θ
k
=
(
μ
k
,
σ
k
2
)
\theta_k=(\mu_k,\sigma^2_k)
θk=(μk,σk2)
ϕ
(
y
∣
θ
k
)
=
1
2
π
σ
k
exp
{
−
(
y
−
μ
k
)
2
2
σ
k
2
}
(11)
\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp\{-\frac{(y-\mu_k)^2}{2\sigma_k^2}\}\tag{11}
ϕ(y∣θk)=2πσk1exp{−2σk2(y−μk)2}(11)
2.2 高斯混合模型参数估计的EM算法
假设观测数据 y 1 , ⋯ , y N y_1,\cdots,y_N y1,⋯,yN由高斯混合模型 P ( y ∣ θ ) = ∑ k = 1 K α k ϕ ( y ∣ θ k ) P(y|\theta)=\sum\limits_{k=1}^K\alpha_k\phi(y|\theta_k) P(y∣θ)=k=1∑Kαkϕ(y∣θk)生成,其中, θ = ( α 1 , ⋯ , α K ; θ 1 , ⋯ , θ K ) \theta=(\alpha_1,\cdots,\alpha_K;\theta_1,\cdots,\theta_K) θ=(α1,⋯,αK;θ1,⋯,θK),我们用EM算法来估计参数 θ \theta θ
定义隐变量
γ
j
k
=
{
1
第
j
个
观
测
数
据
来
自
第
k
个
分
模
型
0
否
则
(12)
\gamma_{jk}=\begin{cases} 1&第j个观测数据来自第k个分模型\\ 0&否则 \end{cases}\tag{12}\\
γjk={10第j个观测数据来自第k个分模型否则(12)
其中
j
=
1
,
2
⋯
,
N
;
k
=
1
,
2
⋯
,
K
j=1,2\cdots,N;\quad k=1,2\cdots,K
j=1,2⋯,N;k=1,2⋯,K
从而有完全数据
(
y
j
,
γ
j
1
,
⋯
,
γ
j
K
)
(y_j, \gamma_{j1},\cdots,\gamma_{jK})
(yj,γj1,⋯,γjK),
j
=
1
,
2
⋯
,
K
j=1,2\cdots,K
j=1,2⋯,K,所以可以写出完全数据的似然函数
P
(
y
,
γ
∣
θ
)
=
∏
j
=
1
N
P
(
y
j
,
γ
j
1
,
⋯
,
γ
j
K
∣
θ
)
=
∏
k
=
1
K
∏
j
=
1
N
[
α
k
ϕ
(
y
j
∣
θ
k
)
]
γ
j
k
=
∏
k
=
1
K
α
k
n
k
∏
j
=
1
N
[
1
2
π
σ
k
exp
{
−
(
y
j
−
μ
k
)
2
2
σ
k
2
}
]
γ
j
k
(12)
P(y,\gamma|\theta)=\prod_{j=1}^NP(y_j, \gamma_{j1},\cdots,\gamma_{jK}|\theta)\\ =\prod_{k=1}^K\prod_{j=1}^N[\alpha_k\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ =\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}\exp\{-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}\}]^{\gamma_{jk}}\tag{12}
P(y,γ∣θ)=j=1∏NP(yj,γj1,⋯,γjK∣θ)=k=1∏Kj=1∏N[αkϕ(yj∣θk)]γjk=k=1∏Kαknkj=1∏N[2πσk1exp{−2σk2(yj−μk)2}]γjk(12)
其中
n
k
=
∑
j
=
1
N
γ
j
k
,
∑
k
=
1
K
n
k
=
N
n_k=\sum\limits_{j=1}^N\gamma_{jk}, \sum\limits_{k=1}^Kn_k=N
nk=j=1∑Nγjk,k=1∑Knk=N
所以对数似然函数为
log
P
(
y
,
γ
∣
θ
)
=
∑
k
=
1
K
{
n
k
log
α
k
+
∑
j
=
1
N
γ
j
k
[
log
(
1
2
π
)
−
log
σ
k
−
1
2
σ
k
2
(
y
j
−
μ
k
)
2
]
}
(13)
\log P(y,\gamma|\theta)=\sum_{k=1}^K\{n_k\log\alpha_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\tag{13}
logP(y,γ∣θ)=k=1∑K{nklogαk+j=1∑Nγjk[log(2π1)−logσk−2σk21(yj−μk)2]}(13)
∙
E
−
s
t
e
p
\bullet\quad E-step
∙E−step
所以
Q
(
θ
,
θ
(
i
)
)
=
E
[
log
P
(
y
,
γ
∣
θ
)
∣
y
,
θ
(
i
)
]
=
E
{
∑
k
=
1
K
{
n
k
log
α
k
+
∑
j
=
1
N
γ
j
k
[
log
(
1
2
π
)
−
log
σ
k
−
1
2
σ
k
2
(
y
j
−
μ
k
)
2
]
}
=
∑
k
=
1
K
{
∑
j
=
1
N
E
(
γ
j
k
)
log
α
k
+
∑
j
=
1
N
E
(
γ
j
k
)
[
log
(
1
2
π
)
−
log
σ
k
−
1
2
σ
k
2
(
y
j
−
μ
k
)
2
]
}
(14)
Q(\theta,\theta^{(i)})=E[\log P(y,\gamma|\theta)|y,\theta^{(i)}]=E\{\sum_{k=1}^K\{n_k\log\alpha_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\\ =\sum_{k=1}^K\{\sum_{j=1}^NE(\gamma_{jk})\log\alpha_k+\sum_{j=1}^NE(\gamma_{jk})[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\tag{14}
Q(θ,θ(i))=E[logP(y,γ∣θ)∣y,θ(i)]=E{k=1∑K{nklogαk+j=1∑Nγjk[log(2π1)−logσk−2σk21(yj−μk)2]}=k=1∑K{j=1∑NE(γjk)logαk+j=1∑NE(γjk)[log(2π1)−logσk−2σk21(yj−μk)2]}(14)
注意到
n
k
=
∑
j
=
1
N
γ
j
k
n_k=\sum\limits_{j=1}^N\gamma_{jk}
nk=j=1∑Nγjk,所以
E
(
n
k
)
=
∑
j
=
1
N
E
(
γ
j
k
)
E(n_k)=\sum\limits_{j=1}^NE(\gamma_{jk})
E(nk)=j=1∑NE(γjk)
而
E
(
γ
j
k
)
=
P
(
γ
j
k
=
1
∣
y
,
θ
)
=
P
(
γ
j
k
=
1
,
y
j
∣
θ
)
∑
k
=
1
K
P
(
γ
j
k
=
1
,
y
j
∣
θ
)
=
P
(
y
j
∣
γ
j
k
=
1
,
θ
)
P
(
γ
j
k
=
1
∣
θ
)
∑
k
=
1
K
P
(
y
j
∣
γ
j
k
=
1
,
θ
)
P
(
γ
j
k
=
1
∣
θ
)
=
α
k
ϕ
(
y
i
∣
θ
k
)
∑
k
=
1
K
α
k
ϕ
(
y
i
∣
θ
k
)
(15)
E(\gamma_{jk})=P(\gamma_{jk}=1|y,\theta)\\ =\frac{P(\gamma_{jk}=1,y_j|\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1,y_j|\theta)}\\ =\frac{P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum\limits_{k=1}^KP(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}\\ =\frac{\alpha_k\phi(y_i|\theta_k)}{\sum\limits_{k=1}^K\alpha_k\phi(y_i|\theta_k)}\tag{15}
E(γjk)=P(γjk=1∣y,θ)=k=1∑KP(γjk=1,yj∣θ)P(γjk=1,yj∣θ)=k=1∑KP(yj∣γjk=1,θ)P(γjk=1∣θ)P(yj∣γjk=1,θ)P(γjk=1∣θ)=k=1∑Kαkϕ(yi∣θk)αkϕ(yi∣θk)(15)
其中
j
=
1
,
2
⋯
,
N
;
k
=
1
,
2
⋯
,
K
j=1,2\cdots,N;\quad k=1,2\cdots,K
j=1,2⋯,N;k=1,2⋯,K
所以 E ( γ j k ) E(\gamma_{jk}) E(γjk)可以看作是在当前模型参数下,第 j j j个观测数据来自第 k k k个分模型的概率,称为分模型 k k k对观测数据 y j y_j yj的响应度。
∙
M
−
s
t
e
p
\bullet\quad M-step
∙M−step
即
θ
(
i
+
1
)
=
arg
max
θ
Q
(
θ
,
θ
(
i
)
)
\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})
θ(i+1)=argθmaxQ(θ,θ(i))。将
Q
(
θ
,
θ
(
i
)
)
Q(\theta,\theta^{(i)})
Q(θ,θ(i))分别对
μ
k
,
σ
k
2
\mu_k, \sigma_k^2
μk,σk2分别求偏导并令其为0即可得到
μ
^
k
,
σ
^
k
2
\hat{\mu}_k, \hat{\sigma}^2_k
μ^k,σ^k2,在
∑
k
=
1
K
α
k
=
1
\sum\limits_{k=1}^K\alpha_k=1
k=1∑Kαk=1的条件下,对
α
k
\alpha_k
αk求偏导即可得到
α
^
k
\hat{\alpha}_k
α^k:
μ
^
k
=
∑
j
=
1
N
γ
^
j
k
y
j
∑
j
=
1
N
γ
^
j
k
(16)
\hat{\mu}_k=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}y_j}{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}\tag{16}
μ^k=j=1∑Nγ^jkj=1∑Nγ^jkyj(16)
σ
^
k
2
=
∑
j
=
1
N
γ
^
j
k
(
y
j
−
μ
k
)
2
∑
j
=
1
N
γ
^
j
k
(17)
\hat{\sigma}^2_k=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}(y_j-\mu_k)^2}{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}\tag{17}
σ^k2=j=1∑Nγ^jkj=1∑Nγ^jk(yj−μk)2(17)
α
^
k
=
n
k
N
=
∑
j
=
1
N
γ
^
j
k
N
(18)
\hat{\alpha}_k=\frac{n_k}{N}=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}{N}\tag{18}
α^k=Nnk=Nj=1∑Nγ^jk(18)
其中,
k
=
1
,
⋯
,
K
k=1,\cdots,K
k=1,⋯,K