这篇文章写的太好了。。http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
写的清楚明白,详细。
这个过程可以看做是对l(a) 求下界,对于Qi的选择,有多种可能,哪种更好呢?假设thea已经给定,那么l(thea)的值就决定于Qi(zi)和p(xi,zi)了。我们可以通过调整这两个概率让下界不断上升,以逼近l(thea)的真实值,那么什么时候算是调整好了呢?当不等式变为等式的时,说明我们调整后的概率能够等价于l(thea)。
至此,我们推出了在固定其他参数thea后,Qi(zi)的计算公式就是后验概率,解决了Qi(zi)如何选择的问题。这一步是E步,建立l(thea)的下界。接下来,就是给定Qi(zi)后,调整thea,去极大化l(thea)的下界(在固定Qi(zi)后,下界还可以调整的更大)。
循环直到收敛
那么究竟怎么确保EM收敛?假定thea(t)和thea(t+1)是EM第t次和t+1次迭代后的结果。如果我们证明了l(thea(t))<l(thea(t+1)),也就是说极大似然估计单调增加,那么我们最终会达到最大似然估计的最大值。
也就是说E步会将下界拉倒与l(thea)一个特定值(这里thea(t))一样的高度,而此时发现下界仍然可以上升。经过M步后,下界又被拉升。但达不到与l(thea)另外一个特定值一样的高度,之后E不又将下界拉倒与这个特定值一样的高度,重复下去,直到最大值。