topic model之PLSA的简单理解

最新推荐文章于 2018-06-19 17:20:03 发布

Bestrem_9

最新推荐文章于 2018-06-19 17:20:03 发布

阅读量2k

点赞数

分类专栏：计算广告文章标签： PLSA topic model

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bestrem_9/article/details/38360009

版权

计算广告专栏收录该内容

10 篇文章 1 订阅

订阅专栏

PLSA: Probabilistic Latent Semantic Analysis

在文本处理中，我们常常直接根据文本的内容，将document 和term直接关联分析，比如计算term frequency等。而在topic模型中，我们认为document是有主题topic的，topic才是直接和term关联的，但是topic又是不可观测的变量，所以它是一个隐含变量，则document 和term都可以看成是该隐含变量的分布。具体如图：

由于topic是隐含变量，那如何描述doc,topic,term之间的关系呢，这里假设每篇文档d都可以以概率p(z|d)属于某一个主题，并且在给定主题后，每个词都以一定的概率p(w|z)产生，这样文档和词一同出现的概率就可以通过概率来进行描述：

通过PLSA分析可以得到p(d|z), p(w|z)的概率。

利用图模型的PLSA的描述为：

那么改如何求解?我们都知道在p(d,w)含有隐含变量，如果直接利用最大似然函数的方法来求解的话，就会遇到类似于GMM的问题，难以直接求解，那么同样可以采用EM算法来进行求解：

目标是doc和term的联合概率的似然函数最大：

其中E-step来估计概率：

M-step:来更新参数：

直至最后收敛。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
topic model之PLSA的简单理解

PLSA: Probabilistic Latent Semantic Analysis一般在w
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。