招商银行fintech选拔课题---《基于微博爬虫的舆情分析》下

本文介绍了对微博数据进行舆情分析的过程,包括信息抽取和情绪判定。使用正则匹配对招行相关服务如黑金卡、信用卡进行抽取,并通过腾讯文智情感分析API得出微博的正面和负面情绪。分析结果显示,招行服务的负面情绪略高于正面情绪,反映出服务态度有待提升。
摘要由CSDN通过智能技术生成


这一篇,我主要介绍一下对爬虫后的微博数据,根据关键词,进行抽取和分析。


舆情分析思路流程

                         

信息抽取

爬虫得到微博信息存储在weiboData.xls这个EXCEL文件中,我抽取的是5017-05-02开始的最近10天的信息,一共691条微博信息。要想进行舆情分析,就必须对爬虫信息进行抽取。我通关关键词正则匹配的方式,从爬虫得到的信息中抽取了和招行相关相关的服务,黑金卡、信用卡等重点信息。

但是,在实现过程中发现正则表达式对中文汉字并不适用。查资料后,发现可以对汉字进行Unicode编码,经过编码后就可以进行正则匹配了。以关键词“服务”为例,其Unicode编码为\u670d\u52a1,正则表达式为:

pattern= re.compile(u"(\u670d\u52a1)+")


情绪判定


     这个情绪分析算法就比较复杂了,自己在短时间内做不来。我选择了在大连理工情感词汇本体库,但是由于词库,词不够全,以及我自己算法的一些问题,获得的结果很差。后来查资料后,发现,腾讯有腾讯文智情感分析API,新手可以获得免费调用机会。按照官方文档,调用后,成功就算出每条微博的正面情绪和负面情绪。然后对相关微博的

  • 6
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值