LDA PLSA 比较总结

最新推荐文章于 2024-10-10 11:54:20 发布

Do_Cool_Thing

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量4.1k

点赞数 1

分类专栏： Machine learning

本文链接：https://blog.csdn.net/menyangyang/article/details/44080303

版权

PLSA和LDA是文档主题生成模型，用于识别大规模文档集中潜在的主题信息。两者都采用词袋模型，但LDA引入了狄利克雷先验，使得主题分配具有不确定性。在推断文档主题时，PLSA使用EM算法，而LDA基于贝叶斯思想。

摘要由CSDN通过智能技术生成

下面内容总结自博客 http://blog.csdn.net/v_july_v/article/details/41209515 和 http://blog.csdn.net/hxxiaopei/article/details/7617838 以及百度百科

首先介绍主题模型的概念：

顾名思义，主题模型是对文本隐含主题的建模。ＰLSA 和 LDA 都是文档主题生成模型，包含词，主题和文档三层结构，该模型可以将文档集中的每篇文档的主题以概率分布的形式给出，后利用这些主题分布进行主题聚类或文本分类。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定的概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。文档到主题服从多项式分布，主题到词服从多项式分布。

两者均是非监督机器学习技术，可以用来识别大规模文档集或这语料库中潜藏的主题信息。他们采用了词袋(bag of words)的方法, 这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

对每一篇文档，生成过程大致如下：

1，对每一篇文档，从主题分布中抽取一个主题

2, 从被抽出的主题所对应的单词分布中抽取一个单词

3, 重复上述过程直至遍历文档中的每一个单词

上述介绍了如何生成一篇文档，然而当我们看到一篇文档后，