EM算法

最新推荐文章于 2023-12-22 23:15:10 发布

kelly学技术

最新推荐文章于 2023-12-22 23:15:10 发布

阅读量533

点赞数

分类专栏： python技术基础文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qm5132/article/details/114368514

版权

python技术基础专栏收录该内容

14 篇文章

订阅专栏

用途：求解含有因变量的问题，但模型结构需要先知道。

方法：最大化完全数据（可观测数据+不可观测）的期望；

第1步（E步）：先假定一个模型初始参数，求完全数据的期望等价于求因变量参数值；

第2步（M步）：因变量确定之后，问题转化为极大似然估计问题，最大化完全数据的期望，即更新模型参数。

使用到的关键工具：Jensen不等式

假定函数f(x)是下凹函数，，则有：

否则f(x)是上凸函数，则有：

实际计算步骤

E步（已知theta求z）
根据theta的初值，计算各个样本j对于各个模型k的响应度r_jk值
计算公式：对于样本j，计算单个模型输出在全部模型输出的比值。

M步（已知z求theta，使用极大似然估计）
根据E步的响应度r_jk，迭代更新各个子模型k的theta参数值
计算公式：
   模型k均值miu_k = r_j乘以实际输出再累加 / r_jk的累加和
   模型k方差sigma_k = r_jk乘以(实际输出 - miu_k)^2 / r_jk的累加和
   模型k权重alpha_k = r_jk的累加和 / 样本总数
本质上就是一个逐点相乘的各种比值计算。

公式推导

首先有jensen不等于f(∑r_i * x_i) >= ∑f(r_i * x_i)，∑r_i=1

令模型参数theta记做$，则
log p(y|$)
= log ∑ p(y,z|$)
= log ∑ Q(z)*p(y,z|$)/Q(z)
≥ ∑ Q(z)* log[p(y,z|$)/Q(z)]

即原函数存在一定下界，等号取到条件是p(y,z|$)/Q(z)=c常数。
Q(z) = p(y,z|$) / ∑_z p(y,z|$) = p(y,z|$) / p(y|$) = y(z|y,$))
即在给定模型参数和观测时的z的条件概率。

说明：通过jensen不等式，将log ∑转为了∑log问题。

E步：固定$，计算Q(z)得到下界J(z,$)；
M步：固定Q(z)，改变$最大化（提升）下界J(z,$)。

Q函数为∑_z p(z|y,$)*p(y,z|$)，确定了z，联合概率分布p(y,z|$)也就知道了

完全数据的联合概率分布为p(y,z|$)

参考文献：

人人都懂EM算法

https://zhuanlan.zhihu.com/p/36331115

【机器学习】EM——期望最大（非常详细）

https://zhuanlan.zhihu.com/p/78311644

-- over --

博客等级

码龄8年

112
原创

433
点赞

905
收藏

235
粉丝

关注

私信

热门文章

分类专栏

python技术基础 14篇
图像处理 2篇
python设计模式 3篇
scala 1篇
Linux 5篇
big data 6篇
python 28篇
deep learning 15篇
tensorflow 4篇
numpy 1篇
Python标准库学习
kudu 1篇
C++ 3篇
开发思想 2篇
算法 3篇

展开全部收起

上一篇：: 实体识别-个人理解知识体系

下一篇：: 图像风格迁移总结

最新评论

Windows下配置MinGW和CMake编译Makefile
FFC93: cmake -G "MinGW Makefiles" -D "CMAKE_MAKE_PROGRAM:PATH=***\\mingw64\\bin\\make.exe" .. 这个在cmakelists 中怎么写啊，不想在控制台输入
图像风格迁移总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
python-sys.getsizeof的使用
kelly学技术: 不知道你的具体问题场景是什么？在使用requests等Python框架时，通常不需要将结果特意转为bytes类型。（至于网络协议内部怎么转换，又是单独的技术内容了）
python-sys.getsizeof的使用
kelly学技术: 写这篇文章的时候，用到是Python3.5，新的Python版本不断优化
python-sys.getsizeof的使用
weixin_44251133: bytes类型也有其他数据，为什么网络传输非要转换成bytes类型？

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。