词典构造方法之LDA主题模型

最新推荐文章于 2022-08-31 18:10:20 发布

笑傲NLP江湖

最新推荐文章于 2022-08-31 18:10:20 发布

阅读量2.1k

点赞数

文章标签：自然语言处理爬虫 python

本文链接：https://blog.csdn.net/KaikebaAI/article/details/120561936

版权

本文介绍了LDA主题模型的原理，通过非监督学习从大规模文本中识别潜在主题。LDA将每篇文档视为词频向量，通过随机选择主题和单词生成文档。文中展示了使用LDA提取关键词的步骤，包括数据爬取、清洗、主题提取和可视化，以体育、房地产等领域为例，说明如何构建领域词典。

摘要由CSDN通过智能技术生成

词典构造方法之LDA主题模型

主题模型LDA原理理解

LDA是一种非监督学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

举例来说，假设一个语料库中有三个主题：体育，科技，电影。一篇描述电影制作过程的文档，可能同时包含主题科技和主题电影，而主题科技中有一系列的词，这些词和科技有关，并且他们有一个概率，代表的是在主题为科技的文章中该词出现的概率。同理在主题电影中也有一系列和电影有关的词，并对应一个出现概率。当生成一篇关于电影制作的文档时，首先随机选择某一主题，选择到科技和电影两主题的概率更高（这三个主题的概率分布决定大小）；然后选择单词，选择到那些和主题相关的词的概率更高（主题下面的选的词也是符合一定的概率分布的）。这样就就完成了一个单词的选择。不断选择N个单词，这样就组成了一篇文档。

那么，如果我们要生成一篇文档，它里面的每个词语出现的概率为：

$P (w o r d │ d o c u m e n t) = \sum P (w o r d │ t o p i c) \times P (t$