更多内容请访问我的个人博客www.tenliu.top
在讲PLSA概率潜在语义模型(似乎比LSA更容易解释 啊)之前
我们先定义一些表示:
- D表示语料库
- M表示该语料库中有M篇文档
- V表示语料库中的词的个数(当然重复的词只算一次)
- N表示语料库中词的词频(重复的也算),那么V个词,每个词的- 词频记为 ni
- d就是语料库中的一篇文档, wi 表示文档中的第i个词
注意这是“概率”而不是贝叶斯派的思想哦,下面的过程中你也可以思考如果是贝叶斯派应该会怎么想这个问题。
如果我们假设一篇文章的生成过程是这样的,首先确定这个文章涉及几个主题(每个主题呢,都有和这个主题相关的词),开始写文章,每写一个词的时候,都要选择主题,然后在这个主题下选择词。每一个词都是这样产生,直到文章结束。
整个过程就像是上帝掷骰子,当你开始要写某一篇文章(例如第m篇)的时候,你明确文章几个主题(如K个主题,每个主题分别是语文、数学、等),就相当于上帝现做了一个“doc-topic”骰子,这个骰子有K个面,对应K个主题(参数
θm→=(θm1→,θm2→,...,θmk→)
),
然后上帝又做了K个骰子“topic-word”骰子(每个骰子的参数是
ψ1→,ψ2→,...,ψK→
)。
现在写文章就是上帝掷骰子,每写一个词,就是上帝先投“doc-topic”骰子,如结果是第i面(对应一个主题),那么在拿起对应的第i个“topic-word”骰子,掷出一个词。
那么第m篇文档dm的某一个词w的生成概率:
p(w⃗ |dm)=∑z=1Kp(w|z)p(z|dm)=∑z=1Kψzwθmz
如果这篇文档 w⃗ 由n个词组成,那么这篇文档的生成概率就是:
p(w⃗ |dm)=∏i=1np(wi→|dm)=∏i=1n∑z=1Kψzwiθmz