一 概率主题模型简介
隐含狄利克雷分布(LatentDirichlet Allocation,LDA)[1]是一种文档生成模型,包含文档、主题和词三层结构。如图1所示,LDA假设每篇文档由若干隐含的主体组成,每个主题下有一系列与主题相关的词汇。当要生成一篇文章时,是通过以一定的概率选择某个主题,然后再以一定的概率选择主题下某个词语。LDA是一种非监督机器学习技术,可以用来发现大规模文档集合或者语料库中隐含的主题分布信息。与关键词匹配技术相比,LDA主题模型更关注文档或语料的语义信息,它将文档归纳出若干主题,然后根据文档主题计算相似性,因此,LDA主题模型是一种更抽象层次的匹配技术。
图1 文档主题分布、主题词分布举例
理解LDA模型主要理解图2所示文档生成的两个物理过程:
1)α—>θ—>z:以一定的概率生成文档中词的主题编号z;
2)β—>φ—>w:以一定的概率选择编号为z的主题下某个词。
如果一篇文档由n个词,则重复上述两个步骤n次,最终生成一篇文档。其中α与β是狄利克雷分布先验参数,人工调参。
图2 LDA文档生成模型的两个物理过程
两个物理过程对应到文档中的效果如图3 所示:
图3 LDA物理分解过程与文档的主题及词的对应关系
现实中,观测数据仅仅是文档,目的是推测文档的潜在主题结构,如图4所示,进一步说,已知的是左边的矩阵,要求解右边两个矩阵: