理解LDA,可以分为如下5个步骤:
- 一个函数:
gamma
函数 - 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
- 两个模型:PLSA、LDA
- 一个采样:Gibbs采样
本文按照上述五个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的理解。
gamma函数
整体把握LDA
关于LDA·有两种含义,一种是线性判别分析
(Liner Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布
(Latent Dirichlet Allocation,简称LDA),本文讲后者。
首先,简单说下LDA
的整体思想,明白整体框架后,咱们再一步步抽丝剥茧,展开来论述。
根据维基百科的介绍,LDA
由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型
,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
人类是怎么生成