EM算法的作用:估计模型参数 θ的最大似然(Maximum Liklihod)或者最大后验概率(MAP),在这里,数据x的似然为 P(x|θ),其中(离散)或者(连续)。
EM算法的思想: EM算法依据增大下界 的想法(),是隐藏变量的概率分布集合,然后分为E步和M步,不断迭代直至收敛。
- 对于E步,固定θ,求使最大的,即在t次迭代,;
- 对于M步,固定,求使最大的θ,即在t次迭代,。
- 不断迭代,直至接近实际的log似然。
用图像表示:
E步的求解:
,,
可以看到
,
所以在E步需要使。
M步的求解:
下界是怎么确定的?
这里只是说明了确实是log似然的一个下界,至于怎么想到这个下界,这里引用PRML里面的说明:
这里
,
由于KL散度>=0,当且仅当时为0。所以可以看到。