根据江老师的课件理解:
EM是要在包含complete data和missing data的情况下利用层次模型解决混合模型的问题。
注意E和M分别都有两步:
E1:对于all data, 计算参数
λ
,
μ
,
σ
\lambda, \mu, \sigma
λ,μ,σ的log likelihood的Expection。之所以叫Expection,是因为对于每个类别yi,我们算的都是E[yi=k]而不是用I[yi=k]。这其实是一步很关键的理解。我们对于missing data不用给他打标签,而只需要在E的第二步算出它的每个k的E[yi=k]即可,然后把所有的data的标签加权算总共的E[yi=k]:
E的第二步:对于所有的missing data,按照当前的参数
λ
,
μ
,
σ
\lambda, \mu, \sigma
λ,μ,σ算出每个k的E[yi=k]:
M的第一步:算参数
λ
\lambda
λ,因为它可以和其他参数分离:
M的第二步:算分布的参数
μ
,
σ
\mu, \sigma
μ,σ:
注意自始至终,我们算M的地方都只用了E的第一步得到的式子。E的第二步的式子不参与M步的计算,他只是用来给missing data算E每个k的E[yi=k]的。其实更好的理解应该是E的第一步应该是第二步,第二步是第一步
update 2020/11/11:
我们在拥有样本、上一次估计的参数之后,能够写出似然函数了,为啥还有E这个似然函数呢?直接M它不行吗?
答:这个似然函数是层次模型下的似然函数,包含X和Y。当我们获得X和参数之后,这个函数将是Y的函数L(Y),则E它相当于把它