python新浪微博爬虫_基于Python的新浪微博数据爬虫

基于

Python

的新浪微博数据爬虫

周中华,张惠然,谢

*

【摘

要】

:

目前很多的社交网络研究都是采用国外的平台数据,而国内的

新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到

微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓

取微博中指定用户的粉丝信息、微博正文等内容

;

该工具利用关键字匹配技术,

匹配符合规定条件的微博,并抓取相关内容

;

该工具支持并行抓取,可以同时抓

取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用

该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示

:

并行爬虫

拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。

【期刊名称】

计算机应用

【年

(

),

期】

2014(034)011

【总页数】

4

【关键词】

关键词

:

新浪微博

;

爬虫

;Python;

并行

;

大数据

0

引言

计算机技术的进步使人们的生活方式逐渐发生改变,社交网络就是一个非常突

出的例子。越来越多的人参与到社交网络平台中去,与他人互动,分享各种内

容。在大数据时代来临之际,社交网络就像一个巨大的宝库,吸引了大量的研

究人员参与到相关内容的研究。在国外,人们针对

Twitter

Facebook

等知名

社交平台展开了一系列的分析[

1

5

,但是针对国内社交网络平台的研究[

6

9

]还比较欠缺

:

一方面因为相关研究刚刚起步,缺乏相关的研究方法

;

另一方

面缺乏相关的研究数据,使得一些研究难以开展。在国外

Twitter

等社交平台

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值