一.LDA的介绍
LDA是一种
非监督机器学习
技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
LDA是一种三层的结构,第一层是文档,第二层是主题,第三层是词语
有点拗口,举个例子。假设有一个文档集D,我们选取其中的一个文档来说D1,而构成这个D1的就是w1、w2、w3、w4、w5,这里的w就是一个一个的词语了。
有了上述的符号表示,我们可以有如下的产生文档的过程
1. 对每一篇文档,从主题分布中抽取一个主题;
2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.