python建模大赛算法_利用Python实现主题建模和LDA 算法(附链接)

本文介绍了如何使用Python进行主题建模,特别是LDA算法。通过预处理新闻标题数据,构建词袋模型和TF-IDF模型,然后应用LDA进行主题发现,最后评估模型的分类效果。
摘要由CSDN通过智能技术生成

主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。

那便开始吧!

数据

在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表,可以从Kaggle下载。

c9d3611ad9f3d4fa915dffa002d4e115.png

4941001

先来看看数据。

02633b0065fd21f6cd8e68f766f7d5ed.png

4941001

1048575

ee03fcba0b8060d9571f3a9ed6ea8d53.png

4941001

图1

数据预处理

执行以下步骤:

标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。

删除少于3个字符的单词。

删除所有的句号。

词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。

词根化——将单词简化为词根形式。

加载gensim 和nltk库

9ecd84890b903b092c631efe849b834a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值