文本处理:LDA主题模型
前言
在机器学习领域,关于LDA有两种含义,(1) 线性判别分析(Linear Discriminant Analysis),是一种经典的降维学习方法;(2) 隐含狄利克雷分布(Latent Dirichlet Allocation),是一种概率主题模型,主要用来文本分类,在NLP领域有重要应用。在本文要介绍的是 Latent Dirichlet Allocation 主题模型。
1. pLSA
pLSA是一种词袋方法。pLSA的生成文档过程可以理解为先选定文档生成主题,再确定主题生成词语。
2. LDA
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
2.1 LDA生成过程
对于语料库中的每篇文档,LDA定义了如下生成过程(generativeprocess):
(1)对每一篇文档,从主题分布中抽取一个主题;
(2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
(3)重复上述过程直至遍历文档中的每一个单词。
这篇blog 讲的很细致,但小白的我还没看懂,,
https://blog.csdn.net/Kaiyuan_sjtu/article/details/83572927
参考链接:
https://blog.csdn.net/Kaiyuan_sjtu/article/details/83572927
https://blog.csdn.net/u013710265/article/details/73480332