一、LDA主题模型
在之前利用文本相似度解决推荐系统冷启动问题的博文中已简单介绍了LDA主题模型的使用,现在来介绍一下LDA主题模型的原理。
Latent Dirichlet Allocation模型简称为LDA,2003年由Blei, David M.、Ng, Andrew Y.、Jordan提出,用来推测文档的主题,在机器学习领域主题模型中占有非常重要的地位。
LDA将文档中每篇文档的主题以概率分布的形式表示出来,通过分析并抽取出这些文档的主题分布,便可根据这些文档的主题分布进行主题聚类或文本分类。
二、主题模型文本建模原理
我们将日常生活中产生的每一个文本存储为一篇文档,那么每篇文档就是有序的词的序列:
为了了解语料库中的词序列是如何生成的,我们需要进行统计文本建模。由于我们观察到的只是词序列构成的语料,因此在统计文本建模中,有两个核心的问题:
① 模型中有哪些参数;
② 产生词序列有哪些规则。
为了回答上面两个问题,我们先从最简单的Unigram Model入手。
1、Unigram Model之频率视角
假设词典中有一共有V个词,Unigram Model认为:
对于词典中的V个词,每个词的概率为,我们将词序列产生的过程记为
因此,对于一篇文档,该文档被生成的概率就是
而文档和文档之间我们认为