完整的微博千万级数据量思路过程

本文介绍了如何构建单日处理千万级微博数据的爬虫。首先,通过获取大量微博账号的cookie并利用手机端简单验证码,建立代理池以应对大规模请求。观察微博移动端网页结构,发现uid结合特定后缀可获取用户信息、粉丝和微博详情。通过种子uid获取其粉丝,再递归抓取粉丝的uid,实现指数级增长的数据抓取策略。
摘要由CSDN通过智能技术生成

单日千万级微博爬虫介绍:

	我也不喜欢说废话,来救直接上,项目要求爬微博,**存成四张表**,分别是用户信息表,用户和用户关系表,微博信息表,微博和微博关系表,改为分布式爬虫可实现单日1000+的数据量,直接开始干把
  1. 准备:
    首先你的准备好几百个微博账号,并获取cookie,楼主借鉴网上很多大神的方法,也是通过访问手机端拿到cookie,http://weibo.cn,比较简单,并且验证码是四宫格,相比于其他验证码,简单,网上很多破解的教程,这里不赘述,
    然后就是代理池,微博那么大的数据量肯定是需要用代理的

  2. 思路:
    通过观察手机端网页我们可以发现,微博的几个信息是可以构建的,user_info 可以在微博uid后面加上info,就能访问到详情页,同样,fans可以访问到粉丝页,profile可以访问到微博页,所以我们仅仅需要得到uid就够了,然后具体的请求再调用不用的collback即可

  3. 过程:
    1:找到一个uid作为种子,爬去他的粉丝,再将粉丝的uid又作为种子,指数爆炸的抓取uid

    2:例如uid=12345678911,然后构建三个请求,http://weibo.cn/12345678911/info,
    http://weibo.cn/123456
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值