在LDA主题模型中,一篇文档可以包含好几个主题,每个主题可以生成一系列词。
LDA是怎么运作的呢?
1、从主题分布中,为每篇文档选定一个主题。
2、从上述主题所对应的单词分布中抽取一个单词。
3、重复上述过程直至遍历文档中的每一个词汇。
解释:
w代表词,d代表文档,t代表主题。
LDA的核心公式是:*P(w|d)=P(w|t)P(t|d)
P(w|d)是可观测的。P(w|t)、P(t|d)待求。
首先假设两种分布:
文档对应到不同主题的概率如(1),主题生成不同单词的概率如(2)
P(t|d)可以由(1)计算,P(w|t)可以由(2)计算,
将两个概率相乘,得到特定主题下的P’(w|d),与P(w|d)进行对比,更新该词对应的主题。
因为词对应的主题发生了改变,概率分布(1)和(2)也会随之变化。
不断迭代,优化分布,收敛至LDA所需要的结果。