自然语言处理-主题模型

主题模型理论(LDA):
一篇文章的每个词都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语而组成的。
P(单词|文档)=P(单词|主题)*P(主题|文档)
对于语料库中的每篇文档,LDA定义了如下生成过程(generative process):
1.对每篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至文档中的每一个单词。

w代表单词,d代表文档,t代表主题;大写代表总集合,小写代表个体。
所以,LDA的核心公式如下:
P(w|d)=P(w|t)*P(t|d)
直观地看这个公式,就是以Topic作为中间层,可以通过计算当前文档d中出现单词w的概率P(w|d)。实际应用中,更多的是求P(t|d),我们可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。如果这个更新改变了这个单词所对应的topic,就会反过来影响P(w|t)和P(t|d)。

我们通过观测,得到了“知道主题是什么,就用什么单词”的文本生成模型,那么根据贝叶斯定律,我们就可以反过来推出“看见用什么单词,我就知道主题是什么”。

PLSA根LDA的本质区别就在于它们去估计未知参数所采用的思想不同,前者用的是频率派思想,后者用的是贝叶斯派思想。

转载于:https://blog.51cto.com/eynjay/2159524

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值