Latent Dirichlet Allocation(LDA)主题模型理论
LDA是给文本建模的一种方法,属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成的文章。通过对文本的建模,可以对文本进行主题分类,判断相似度等。LDA通过将文本映射到主题空间,即认为一篇文章有若干主题随机组成,从而获得文本间的关系。LDA模型有一个前提:bag of word。意思是认为文档就是一个词的集合,忽略任何语法或者出现顺序关系。
生成一篇文档按照如下步骤:
1.选择N,N服从Poisson(ξ)分布,这里N代表文档的长度。
2.选择θ,θ服从Dirichlet(α)分布,这里θ是列向量,代表的是个主题发生的概率,α是dirichlet分布的参数
3.对N个单词中的每一个:
a) 选择主题Zn,Zn服从Multinomial(θ)多项分布。Zn代表当前选择的主题
b) 选择Wn,根据p(Wn | Zn; β):在Zn条件下的多项分布。
上式中β是一个K×V的矩阵,βij = P(Wj = 1 | Zi = 1),也就是说β记录了某个主题条件下生成某个单词的概率。
LDA概率模型