lda主题评论文本python_利用python做LDA文本分析，该从哪里入手呢？

最新推荐文章于 2023-11-03 18:05:44 发布

weixin_39653078

最新推荐文章于 2023-11-03 18:05:44 发布

阅读量894

点赞数 1

文章标签： lda主题评论文本python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39653078/article/details/111423633

版权

本文介绍了如何利用Python进行LDA主题模型分析，数据来源于新浪微博，经过预处理，包括分词、去除停用词等步骤。设置了50个主题和100次迭代，最终得到10个话题及其关键词，涉及领域包括社交媒体、经济、科技、娱乐等。

摘要由CSDN通过智能技术生成

前段时间做了新浪微博的主题划分，结果还可以，上传上来算是对之前的一个交代吧

数据集：

利用Gooseeker在新浪微博上爬取了2161个用户，包括这些用户间21368条相互间的关注关系，爬取了2161个新浪微博发布的微博数，粉丝数和关注数，单个用户最近发布的300条微博，包括微博文本内容、微博的评论数和转发数。

数据预处理：

1)

将单个用户发布的300条微博整合成一个文档

2)

对文档进行噪音处理，去除‘@某用户：’、‘我在这里：北京市’相类似的无用短语，再进一步去除特殊的标点符号；

3)

利用结巴分词对文档进行分词工作；

4)

利用完善的停用词表对文档去除停用词；

5)

得到的结果准备进行LDA主题划分

参数设置：

用户发布的微博内容文档进行LDA主题划分时，根据Griffiths

& Steyvers(2004)对主题模型参数设置的研究，将实验参数设置为经验值，主题设为50个，吉布斯采样迭代次数设置为100次。

划分结果：

在每个主题内部根据词语概率高低进行主题词排序，选择具有最高概率的10个词语评估话题挖掘效果。下表所示是取了LDA模型结果中前10个话题及其关键词。

话题话题关键词

Topic1 推荐知乎纪录片年下载阅读文章作者英语豆瓣

Topic2 手机三星苹果小米发布元屏幕支持曝光产品

Topic3 点股市场股市股票经

最低0.47元/天解锁文章

weixin_39653078

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。