数据挖掘(一)主题模型(Topic Modeling)
1. 主题建模的目的
从文档集合中自动地找出一系列的主题(topics),每个文档集内可能有多个主题;
主题:由众多词汇的概率分布(distribution)组成;
常用模型:LDA, pLSA, pLSI等,是一种无监督的学习过程;
Input: An unorganized collection of documents;
Output: An organized collection of topics;
在生活中,完成文档的过程是:首先确定这篇文章的中心思想(topic),然后根据topics,产生一个个词语(words),最终形成文档。主题模型的过程与之相反,通过文档形成词袋,再由词袋生成topic。下图显示的是一个主题模型的简单示例,输入为两个文档,输出为5个topic,每个topic分别由多个词组成;
2. 预备数学知识
2.1 Bernoulli distribution
伯努利分布:当N=1时的二项分布的特殊情况;
2.2 Binomial distribution
二项分布:类似于多次抛掷硬币;
2.3 Categorical distribution
分类分布:抛掷一次多面骰子, p 1 + p 2 + p 3 + . . . . . . + p n = 1 p_1+p_2+p_3+......+p_n = 1 p1+p2+p3+......+pn=1
p ( x ) = [ x = 1 ] p 1 + [ x = 2 ] p 2 + [ x = 3 ] p 3 + . . . . . . + [ x = 6 ] p 6 p(x)=[x=1]p_1+[x=2]p_2+[x=3]p_3+......+[x=6]p_6 p(x)=[x=1]p1+[x=2]p2+[x=3]p3+......+[x=6]p6
[ x = 1 ] [x=1] <