【机器学习】EM算法推导

最新推荐文章于 2023-08-12 10:25:34 发布

Chester-zZz

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量1k

点赞数 3

分类专栏：机器学习文章标签：机器学习 EM算法推导

本文链接：https://blog.csdn.net/u014433413/article/details/78437319

版权

EM算法用于含有隐变量的极大似然估计问题，通过优化目标函数的下界来间接优化目标函数。基本思想类似小和尚抱小牛，通过迭代的E步（期望）和M步（最大化）逐步提升对数似然函数的值，确保下界增加。Jensen不等式在其中起到关键作用，确保在每一步迭代中找到目标函数的下界。虽然EM算法可能受初值影响，但能保证收敛到局部最优解。

摘要由CSDN通过智能技术生成

1 为什么要用EM算法

有时，我们用极大似然的时候，公式中可能会有隐变量：

L (θ) = \prod i = 1 m p (y i; θ) = \prod i = 1 m [\sum z p (y i, z; θ)] = \prod i = 1 m [\sum z p (z; θ) p (y i | z; θ)]

$L(\theta)=\prod_{i=1}^mp(y_i;\theta)=\prod_{i=1}^m\left[\sum_z p(y_i,z;\theta)\right]=\prod_{i=1}^m\left[\sum_zp(z;\theta) p(y_i|z;\theta)\right]$

也就是 y 取什么值是由隐含的变量 z 决定的。举个栗子：有三个硬币，ABC，先抛A，由A的正反面决定下一步抛 B 还是抛 C ，A是正面抛B，A是反面抛C。第二次抛不管是B还是C，如果是正面就记为1，如果是反面就记为0。如果我们连续重复【A→B或C】这个过程，得到了一个序列1，1，0，1，0，0，1，0，1，1，问：怎么估计三枚硬币正面出现的概率？显然这里A就是一个隐变量。由于它的不同，后面第二次抛硬币得到正面的几率也不同。

EM算法就是解决这类含有隐变量的极大似然问题的有效算法。

2 基本思想

EM算法的基本思想是通过优化目标函数的下界，间接优化目标函数。

打个通俗的比方，我们都听过小和尚抱小牛的故事，老和尚让小和尚从小就抱一头小牛。小牛每天长大，小和尚每天都抱得动。最后小和尚变得力大无比。这里，小和尚的力气就是目标函数，小牛的体重就是目标函数的下界。小牛随着时间的增长而越来越重，这就是优化下界。而小和尚由于总抱小牛，力气也随着增长，这就是间接优化了目标函数。