lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?

本文介绍了如何利用Python进行LDA主题模型分析,数据来源于新浪微博,经过预处理,包括分词、去除停用词等步骤。设置了50个主题和100次迭代,最终得到10个话题及其关键词,涉及领域包括社交媒体、经济、科技、娱乐等。
摘要由CSDN通过智能技术生成

前段时间做了新浪微博的主题划分,结果还可以,上传上来算是对之前的一个交代吧

数据集:

利用Gooseeker在新浪微博上爬取了2161个用户,包括这些用户间21368条相互间的关注关系,爬取了2161个新浪微博发布的微博数,粉丝数和关注数,单个用户最近发布的300条微博,包括微博文本内容、微博的评论数和转发数。

数据预处理:

1)

将单个用户发布的300条微博整合成一个文档

2)

对文档进行噪音处理,去除‘@某用户:’、‘我在这里:北京市’相类似的无用短语,再进一步去除特殊的标点符号;

3)

利用结巴分词对文档进行分词工作;

4)

利用完善的停用词表对文档去除停用词;

5)

得到的结果准备进行LDA主题划分

参数设置:

用户发布的微博内容文档进行LDA主题划分时,根据Griffiths

& Steyvers(2004)对主题模型参数设置的研究,将实验参数设置为经验值,主题设为50个,吉布斯采样迭代次数设置为100次。

划分结果:

在每个主题内部根据词语概率高低进行主题词排序,选择具有最高概率的10个词语评估话题挖掘效果。下表所示是取了LDA模型结果中前10个话题及其关键词。

话题 话题关键词

Topic1 推荐 知乎 纪录片 年 下载 阅读 文章 作者 英语 豆瓣

Topic2 手机 三星 苹果 小米 发布 元 屏幕 支持 曝光 产品

Topic3 点 股 市场 股市 股票 经

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值