基于时间序列的舆情分析(复仇者联盟3)
摘要
随着移动互联网和信息技术的发展,网络产生了形形色色的自媒体平台。以微博、微信为代表的社交软件受到了网民的热烈追捧,由此每天产生着的海量即时信息,描述着社会中正在发生的热点事件,如能即时发现、追踪这些社会热点事件,将有助于实现网络舆情的实时监控,为决策者提供可靠的数据支持。本次作业通过python爬虫爬取微博以及电影评论,针对某一个事件进行舆情分析。
1. 什么是舆情分析
1.1 舆情分析基本概念
舆情分析,简单来说就是对社会上面的一些舆论信息进行分析处理,从而得出结论,也就是分析报告,舆情行业来说使用舆情数据做的分析即为舆情分析报告,通常企业和政府都会用到,分析报告主要是领导或高层查看的,用来制定一些相应的措施和调整。
2. 微博文本特征
2.1 噪声符号多
由于微博的随意性,其编辑格式经常产生噪声符号多的问题。例如中国气象局2017年3月25号发布的微博: “#倒春寒# 天晴了你们开心不[挤眼][微风]”,其中包含了“#”和一些表情包。常见的噪声有“#”、“@”和表情包等噪声符号,需要对“#话题名#”和“@用户”为格式的微博消息进行过滤,表情包的识别和过滤也是一个问题。这些噪声符号给数据清洗工作造成的极大困扰,也为热点话题的准确挖掘增加难度。
2.2 文本简短
微博的早期设计导致文本内容一般由短文本组成,且字数不大于140字,有碎片化的特点。虽然最近微博的最大文本长度增加到2000字,但长期培养成的用户习惯具有惯性,用户一时难以改变,微博文本长度仍处于低水平,这造成所含信息量密度低的问题。
2.3 话题爆发集中度高
微博的信息传播机制分为单向关注和双向关注两种,当有一定社会影响力的用户开通微博时,往往能吸引大量的粉丝关注,由此产生了粉丝数目庞大的微博大V 。而由于微博长期沉淀下来的用户群体基数较大,当中包含的活跃用户数目庞大,当微博大V转发话题性比较强的微博事件时,往往能够吸引活跃用户的快速评论和转发,爆发核裂变式的的讨论,在短时间内引起微博平台的震荡,从而形成微博热点事件。
2.4 矩阵高维度且高度稀疏
由于文本简短的缘故,将全部微博文本映射成句子级向量时,无论是采用one-hot词典模型还是tf-idf的方法,向量的维度都会非常高,而且相同的词语出现在不相同的微博中的概率也会远远低于传统文本的,从而造成矩阵的高度稀疏,文本相似度计算的困难,增加热点事件挖掘的难度。
3.爬虫工作原理和抓取策略
3.1 爬虫几本流程
网络爬虫不仅是搜索引擎的重要组成部分,而且是目前大数据分析不可缺少的工具。了解爬虫的原理和实现对日常工作或者个人的兴趣爱好有很大的帮助。比如你在百度贴吧里面看到了一遍不错的帖子,这个帖子里面的回复很有价值,你想收藏下来,但是帖子有1000多页,你没办法逐个手动复制;或者你是日系二次元爱好者,喜欢搜集美女图片;或者你对目前的股票、房价的发展趋势想做一些预测;这些需求都可以借助爬虫这个有力的工具得意实现。
3.2 爬虫的抓取策略</