基于
Python
的新浪微博数据爬虫
周中华,张惠然,谢
江
*
【摘
要】
摘
要
:
目前很多的社交网络研究都是采用国外的平台数据,而国内的
新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到
微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓
取微博中指定用户的粉丝信息、微博正文等内容
;
该工具利用关键字匹配技术,
匹配符合规定条件的微博,并抓取相关内容
;
该工具支持并行抓取,可以同时抓
取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用
该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示
:
并行爬虫
拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。
【期刊名称】
计算机应用
【年
(
卷
),
期】
2014(034)011
【总页数】
4
【关键词】
关键词
:
新浪微博
;
爬虫
;Python;
并行
;
大数据
0
引言
计算机技术的进步使人们的生活方式逐渐发生改变,社交网络就是一个非常突
出的例子。越来越多的人参与到社交网络平台中去,与他人互动,分享各种内
容。在大数据时代来临之际,社交网络就像一个巨大的宝库,吸引了大量的研
究人员参与到相关内容的研究。在国外,人们针对
、
等知名
社交平台展开了一系列的分析[
1
-
5
]
,但是针对国内社交网络平台的研究[
6
-
9
]还比较欠缺
:
一方面因为相关研究刚刚起步,缺乏相关的研究方法
;
另一方
面缺乏相关的研究数据,使得一些研究难以开展。在国外
等社交平台