机器学习:《统计学习方法》笔记(三)—— EM算法

参考:《统计学习方法》——李航;摘要介绍了EM算法的推导过程、步骤及在三硬币模型中的应用等内容。正文1. 什么地方要用EM算法EM算法主要用于含有隐含变量的模型参数估计问题。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计或极大后验估计。当概率模型含有隐含变量时,就需要用EM算法来估计参数了。EM算法就是含有隐含变量的概率模型参数的极大似然估计或极大后验估计...
摘要由CSDN通过智能技术生成

参考:《统计学习方法》——李航;

摘要

介绍了EM算法的推导过程、步骤及在三硬币模型中的应用等内容。

正文

1. 什么地方要用EM算法

EM算法主要用于含有隐含变量的模型参数估计问题。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计或极大后验估计。当概率模型含有隐含变量时,就需要用EM算法来估计参数了。EM算法就是含有隐含变量的概率模型参数的极大似然估计或极大后验估计。

2. EM算法的推导

给定观测数据Y,目标是极大化观测数据(不完全数据)Y关于参数\theta的对数似然函数,即

L(\theta)=\log P(Y|\theta)=\log \sum_{Z}P(Y,Z|\theta)=\log \left \{ \sum_Z P(Y|Z,\theta) P(Z|\theta)\right \}

 P(Y|\theta)表示在模型参数为\theta时,观测数据Y的概率分布。

 \begin{align*} P(Y|\theta)&=\sum_Z P(Y,Z|\theta)=\sum_Z P(Z|\theta)P(Y|Z,\theta)\\ &=\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y} \end{align*}

EM算法通过逐步迭代来逐步近似极大化L(\theta)。假设第i次迭代后\theta的估计值为\theta^{(i)}。下一轮的估计值\theta要使L(\theta)> L(\theta^{(i)} )。故

L(\theta)-L(\theta^{(i)} )=\log \left \{ \sum_Z P(Y|Z,\theta)P(Z|\theta) \right \}-\log P(Y|\theta^{(i)} )

利用Jensen不等式得到下界:

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值