机器学习：《统计学习方法》笔记（三）—— EM算法

最新推荐文章于 2021-10-24 16:47:08 发布

另一个我竟然存在

最新推荐文章于 2021-10-24 16:47:08 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习机器学习理论及应用

本文链接：https://blog.csdn.net/qq_24034545/article/details/84541713

版权

本文详细介绍了EM算法的用途、推导过程、步骤、收敛性，并通过三硬币模型实例展示了其应用。EM算法主要用于含有隐含变量的模型参数估计，通过迭代不断求Q函数并极大化以逼近全局最优解。

摘要由CSDN通过智能技术生成

参考：《统计学习方法》——李航；

介绍了EM算法的推导过程、步骤及在三硬币模型中的应用等内容。

EM算法主要用于含有隐含变量的模型参数估计问题。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计或极大后验估计。当概率模型含有隐含变量时，就需要用EM算法来估计参数了。EM算法就是含有隐含变量的概率模型参数的极大似然估计或极大后验估计。

给定观测数据Y，目标是极大化观测数据（不完全数据）Y关于参数 $\theta$ 的对数似然函数，即

$L(\theta)=\log P(Y|\theta)=\log \sum_{Z}P(Y,Z|\theta)=\log \left \{ \sum_Z P(Y|Z,\theta) P(Z|\theta)\right \}$

$P(Y|\theta)$ 表示在模型参数为 $\theta$ 时，观测数据Y的概率分布。

$\begin{align*} P(Y|\theta)&=\sum_Z P(Y,Z|\theta)=\sum_Z P(Z|\theta)P(Y|Z,\theta)\\ &=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y} \end{align*}$

EM算法通过逐步迭代来逐步近似极大化 $L(\theta)$ 。假设第i次迭代后 $\theta$ 的估计值为 $\theta^{(i)}$ 。下一轮的估计值 $\theta$ 要使 $L(\theta)> L(\theta^{(i)} )$ 。故

$L(\theta)-L(\theta^{(i)} )=\log \left \{ \sum_Z P(Y|Z,\theta)P(Z|\theta) \right \}-\log P(Y|\theta^{(i)} )$

利用Jensen不等式得到下界：

关注

专栏目录