招商银行fintech选拔课题---《基于微博爬虫的舆情分析》下

最新推荐文章于 2024-07-11 10:42:19 发布

李恩泽

最新推荐文章于 2024-07-11 10:42:19 发布

阅读量5.4k

点赞数 6

分类专栏：网络爬虫与数据分析文章标签：舆情分析数据抽取正则匹配情绪判定腾讯文智感情分析API

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010949971/article/details/71249056

版权

本文介绍了对微博数据进行舆情分析的过程，包括信息抽取和情绪判定。使用正则匹配对招行相关服务如黑金卡、信用卡进行抽取，并通过腾讯文智情感分析API得出微博的正面和负面情绪。分析结果显示，招行服务的负面情绪略高于正面情绪，反映出服务态度有待提升。

摘要由CSDN通过智能技术生成

这一篇，我主要介绍一下对爬虫后的微博数据，根据关键词，进行抽取和分析。

舆情分析思路流程

信息抽取

爬虫得到微博信息存储在weiboData.xls这个EXCEL文件中，我抽取的是5017-05-02开始的最近10天的信息，一共691条微博信息。要想进行舆情分析，就必须对爬虫信息进行抽取。我通关关键词正则匹配的方式，从爬虫得到的信息中抽取了和招行相关相关的服务，黑金卡、信用卡等重点信息。

但是，在实现过程中发现正则表达式对中文汉字并不适用。查资料后，发现可以对汉字进行Unicode编码，经过编码后就可以进行正则匹配了。以关键词“服务”为例，其Unicode编码为\u670d\u52a1，正则表达式为：

pattern= re.compile(u"(\u670d\u52a1)+")

情绪判定

这个情绪分析算法就比较复杂了，自己在短时间内做不来。我选择了在大连理工情感词汇本体库，但是由于词库，词不够全，以及我自己算法的一些问题，获得的结果很差。后来查资料后，发现，腾讯有腾讯文智情感分析API，新手可以获得免费调用机会。按照官方文档，调用后，成功就算出每条微博的正面情绪和负面情绪。然后对相关微博的

最低0.47元/天解锁文章

关注

6
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。