独家 | 利用Python实现主题建模和LDA 算法（附链接）

最新推荐文章于 2024-08-25 10:33:06 发布

数据派THU

最新推荐文章于 2024-08-25 10:33:06 发布

阅读量1.9k

点赞数 4

文章标签：算法 python 人工智能数据挖掘自然语言处理

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/113206859

版权

本文介绍如何利用Python进行主题建模，重点是LDA算法的应用。通过数据预处理，创建词袋和TF-IDF模型，然后使用LDA对文本进行主题分配。实验证明，LDA模型在文档分类上表现出准确性。源代码可在GitHub上找到。

摘要由CSDN通过智能技术生成



作者：Susan Li翻译：陈之炎校对：陈汉青

本文约1900字，建议阅读5分钟在这篇文章，我们将LDA应用于一组文档，并将文档按照主题分类。

标签：LDA 算法

主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA（Latent Dirichlet Allocation）是主题模型的一个示例，用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题，再为每一个主题添加一些单词，该算法按照Dirichlet分布来建模。

那便开始吧！

数据

在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表，可以从Kaggle下载。

先来看看数据。

图1

数据预处理

执行以下步骤：

标记化——将文本分成句子，将句子分成单词，把单词变为小写，去掉标点符号。
删除少于3个字符的单词。
删除所有的句号。
词形还原——将第三人称的单词改为第一人称，将过去和未来时态中的动词改为现在时。
词根化——将单词简化为词根形式。

加载gensim 和nltk库

[nltk_data] Downloading package wordnet to[nltk_data] 
C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!
True

编写一个函数，对数据集执行词形还原和词干预处理。

最低0.47元/天解锁文章

数据派THU

关注

4
点赞
踩
25

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫