自然语言处理-主题模型

最新推荐文章于 2024-06-03 13:31:43 发布

weixin_34414196

最新推荐文章于 2024-06-03 13:31:43 发布

阅读量140

点赞数

文章标签：人工智能

原文链接：http://blog.51cto.com/eynjay/2159524

版权

主题模型理论（LDA）：
一篇文章的每个词都是以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语而组成的。
P（单词|文档）=P（单词|主题）*P（主题|文档）
对于语料库中的每篇文档，LDA定义了如下生成过程（generative process）:
1.对每篇文档，从主题分布中抽取一个主题；
2.从上述被抽到的主题所对应的单词分布中抽取一个单词；
3.重复上述过程直至文档中的每一个单词。

w代表单词，d代表文档，t代表主题；大写代表总集合，小写代表个体。
所以，LDA的核心公式如下：
P（w|d）=P(w|t)*P(t|d)
直观地看这个公式，就是以Topic作为中间层，可以通过计算当前文档d中出现单词w的概率P（w|d）。实际应用中，更多的是求P（t|d）,我们可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。如果这个更新改变了这个单词所对应的topic，就会反过来影响P（w|t）和P(t|d)。

我们通过观测，得到了“知道主题是什么，就用什么单词”的文本生成模型，那么根据贝叶斯定律，我们就可以反过来推出“看见用什么单词，我就知道主题是什么”。

PLSA根LDA的本质区别就在于它们去估计未知参数所采用的思想不同，前者用的是频率派思想，后者用的是贝叶斯派思想。

转载于:https://blog.51cto.com/eynjay/2159524

weixin_34414196

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理-主题模型

主题模型理论（LDA）：一篇文章的每个词都是以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语而组成的。P（单词|文档）=P（单词|主题）*P（主题|文档）对于语料库中的每篇文档，LDA定义了如下生成过程（generative process）:1.对每篇文档，从主题分布中抽取一个主题；2.从上述被抽到的主题所对应的单词分布中抽取一个单词；3.重复上述过程直至文档中的每一个单词。w代...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。