PLSA原理

最新推荐文章于 2024-01-06 21:23:36 发布

零一睡不醒

最新推荐文章于 2024-01-06 21:23:36 发布

阅读量604

点赞数

分类专栏： NLP 文章标签： PLSA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34333481/article/details/85044229

版权

NLP 专栏收录该内容

25 篇文章 2 订阅

订阅专栏

一、原理

来源：https://www.cnblogs.com/xueliangliu/archive/2012/08/01/2962162.html

PLSA是个从文档中发现topic的算法，它认为文本可以分三个层次来理解。1，文档(d)；2，主题(z)；3，单词(w)，既一个文档包含若干主题，每个主题包含若干单词。从概率层面来讲，这里的包含其实是某种分布。也就是说，一个文档可以看做在一些主题上面的分布(P(z|d)，而每个主题看做在单词上面的某种分布(P(w|z))。 pLSA就是对这些分布进行建模。

相信大部分人都可能理解之前的这些内容，关键难点在于求解。其实呢，一切古典概率都是纸老虎，概率，在文本处理里面，本质就是词频。
pLSA模型的目标函数就是使得所有文档单词组合的似然函数最大：

这里就是单词w_i在文档d_j中出现的次数。
问题的解可以用EM算法实现。
首先，对变量初始化。
在E step里面，计算

这里就是求一个文档中的某个单词在某主题下面的分布，一个简单的概率计算，下标省略，注意一致。
在M step，计算

这里求得是在所有文档中一个单词在某个主题下面的概率。
另外一个更新是

这里求的是某文档在主题上面的分布。

零一睡不醒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PLSA原理

一、原理来源：https://www.cnblogs.com/xueliangliu/archive/2012/08/01/2962162.htmlPLSA是个从文档中发现topic的算法，它认为文本可以分三个层次来理解。1，文档(d)；2，主题(z)；3，单词(w)，既一个文档包含若干主题，每个主题包含若干单词。从概率层面来讲，这里的包含其实是某种分布。也就是说，一个文档可以看做在一些主...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。