PLSA中的EM算法

最新推荐文章于 2021-10-23 22:04:20 发布

weixin_34402090

最新推荐文章于 2021-10-23 22:04:20 发布

阅读量142

点赞数

主要记录下几个文章博客内容

A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis（翟成祥的NOTE）

A Note on EM Algorithm and PLSA（一个中文比较好的总结 by Xinyan Lu）

注意这两个是一个思路

Probabilistic Latent Semantic Analysis （原论文）

原论文是另一个思路

Notes on Probabilistic Latent Semantic Analysis (PLSA)（这个里面对比了两种不同思路，原论文与翟成祥NOTE，Xinyan Lu中文总结分布对应这两种思路）

先看第一种思路，这个更好理解一点

典型的EM算法 hidden/latent variable 是主题Z，p(d)对于我们的计算可忽略,最后面那个博客的总结证明更完整。

类似前面的混合高斯模型，这里实际Estep要估算的就是对应d,w 情况下Z的概率

Estep 对比前面高斯模型具体一个观察点情况下对应到隐藏分类的概率

解释下 sum_z(p(z|d)p(w|z))= p(w|d) p(d)p(w|d)p(z|d,w) = p(d,w,z) => p(w|d)p(z|d,w) = p(d,w,z)/p(d) = p(w,z|d)=p(z|d)p(w|z)

=> p(z|w,d) = p(z|d)(pw|z) / p(w|d)

Mstep

对比NG的课件

x对应这里的w

如果我们考虑背景噪音,翟成祥的NOTE更进一步给出了在这个基础上稍微复杂一点的MODLE和结果

考虑下翟成祥那篇EM中的简单混合模型

topic Z

其实和上面公式一样 p(z|d)

第二种思路

TODO

weixin_34402090

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。