一、LDA 简介
在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),LDA(Latent Dirichlet Allocation,简称LDA)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
LDA的目的:识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)和主题—词汇矩阵(分布)
二、LDA 构建流程
2.1 相关概念
(1)瑞利熵相关概念
2.2 LDA步骤
对于语料库中的文档,LDA定义了如下三个步骤:
step1:对每一篇文档,从主题分布中随机抽取一个主题
step2:根据抽取的主题抽取一个单词,并计算瑞利商
step3:重复上