这一篇,我主要介绍一下对爬虫后的微博数据,根据关键词,进行抽取和分析。
舆情分析思路流程
信息抽取
爬虫得到微博信息存储在weiboData.xls这个EXCEL文件中,我抽取的是5017-05-02开始的最近10天的信息,一共691条微博信息。要想进行舆情分析,就必须对爬虫信息进行抽取。我通关关键词正则匹配的方式,从爬虫得到的信息中抽取了和招行相关相关的服务,黑金卡、信用卡等重点信息。
但是,在实现过程中发现正则表达式对中文汉字并不适用。查资料后,发现可以对汉字进行Unicode编码,经过编码后就可以进行正则匹配了。以关键词“服务”为例,其Unicode编码为\u670d\u52a1,正则表达式为:
pattern= re.compile(u"(\u670d\u52a1)+")
情绪判定
这个情绪分析算法就比较复杂了,自己在短时间内做不来。我选择了在大连理工情感词汇本体库,但是由于词库,词不够全,以及我自己算法的一些问题,获得的结果很差。后来查资料后,发现,腾讯有腾讯文智情感分析API,新手可以获得免费调用机会。按照官方文档,调用后,成功就算出每条微博的正面情绪和负面情绪。然后对相关微博的