PLSA中的EM算法

PLSA中的EM算法

主要记录下几个文章博客内容

A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis(翟成祥的NOTE)

A Note on EM Algorithm and PLSA(一个中文比较好的总结 by Xinyan Lu)

注意这两个是一个思路

Probabilistic Latent Semantic Analysis (原论文)

原论文是另一个思路

Notes on Probabilistic Latent Semantic Analysis (PLSA)(这个里面对比了两种不同思路,原论文与翟成祥NOTE,Xinyan Lu中文总结 分布对应这两种思路)

 

先看第一种思路,这个更好理解一点

image

image

典型的EM算法 hidden/latent variable 是主题Z,p(d)对于我们的计算可忽略,最后面那个博客的总结证明更完整。

image 类似前面的混合高斯模型,这里实际Estep要估算的就是对应d,w 情况下Z的概率

image Estep 对比前面高斯模型image 具体一个观察点情况下对应到隐藏分类的概率

解释下 sum_z(p(z|d)p(w|z))= p(w|d)     p(d)p(w|d)p(z|d,w) = p(d,w,z)  => p(w|d)p(z|d,w) = p(d,w,z)/p(d) = p(w,z|d)=p(z|d)p(w|z)

=> p(z|w,d) = p(z|d)(pw|z) / p(w|d) 

image

image Mstep

对比NG的课件

image image x对应这里的w

image

如果我们考虑背景噪音,翟成祥的NOTE更进一步给出了在这个基础上稍微复杂一点的MODLE和结果

image 考虑下翟成祥那篇EM中的简单混合模型

image image topic Z

image 其实和上面公式一样image  p(z|d)

image

 

 

 

 

 

 

 

 

 

 

第二种思路

image


stanford的NLP课件是一个比较好的总结这里记录下。http://www.stanford.edu/class/cs224n/handouts/fsnlp-em-slides.pdf

MLE

 

image

 

image

image 又一个不同的应用场景,但是可以看出基本都是mixture…

image

image 引入hidden variable让计算变的容易,因为确定了具体哪个part model产生

image

image

image   这个推导看前面的总结

image  关键词image image

 

下面是这个课件独有的,EM made easy

其实作者也是想证明Qfunction怎么获得的,思路和总结2中殊途同归,不过没有用log直接用概率*,利用artithmetic means >= geometric means

image

image  如果再取log形式就一样了




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值