用LDA处理文本(Python)

最新推荐文章于 2024-08-25 10:33:06 发布

everyst

最新推荐文章于 2024-08-25 10:33:06 发布

阅读量1.9k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/everyst/article/details/85093323

版权

LDA（Latent Dirichlet Allocation）是一种非监督机器学习技术，用于识别文档集中的潜在主题。它采用词袋模型将文本转化为数字信息。LDA的生成过程涉及文档抽取主题、主题生成单词。Python示例中，通过lda库训练数据，展示主题-单词和文档-主题分布，揭示文档的主要话题。

摘要由CSDN通过智能技术生成

一、LDA介绍

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

1、LDA生成过程

对于语料库中的每篇文档，LDA定义了如下生成过程（generativeprocess）：
(1)对每一篇文档，从主题分布中抽取一个主题;
(2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
(3)重复上述过程直至遍历文档中的每一个单词。
语料库中的每一篇文档与T（通过反复试验等方法事先给定）个主题的一个多项分布（multinomialdistribution）相对应，将该多项分布记为θ。每个主题又与词汇表（vocabulary）中的V个单词的一个多项分布相对应，将这个多项分布记为φ。

2、LDA整体流程

文档集合D，主题集合