微博抓取

1.微博抓取的含义


2.微博抓取的数据

 微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、微文数、如果是转发的微博还包括转发者及转发者说的话的详细信息.


3.微博抓取的工具

a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据

b.新浪微博数据采集器 V1.0

4.微博抓取的方法

a.正则表达式,自己做爬虫。要解决两个问题:模拟登录和页面存储与数据处理

b.微博给的api,有每日使用次数的限制。由于请求方式的不同,导致返回的格式不同。常用的请求格式有两种:XML和JSON。

对于XML,使用JDOM4J的方式进行抓取,本身DOM的要求比较严格,因此对于那种一些用户偏好的个性化字符格式很难进行获取

对于JSON,是一种更加lightweighting的数据交换方式,文件不具有明显的强结构特征。


ex.新浪api 开发的流程

http://jelen-123.iteye.com/blog/1279563


App Key:3197495784
App Secret:c2ba81f20da5807e5dccc1ae0166fc85


c.两者结合


d.map/reduce方法分布式获取微博信息

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值