完整的微博千万级数据量思路过程

最新推荐文章于 2022-01-14 21:07:20 发布

qq_42896149

最新推荐文章于 2022-01-14 21:07:20 发布

阅读量903

点赞数

分类专栏：爬虫文章标签：微博爬虫千万级分布式

本文链接：https://blog.csdn.net/qq_42896149/article/details/88029646

版权

本文介绍了如何构建单日处理千万级微博数据的爬虫。首先，通过获取大量微博账号的cookie并利用手机端简单验证码，建立代理池以应对大规模请求。观察微博移动端网页结构，发现uid结合特定后缀可获取用户信息、粉丝和微博详情。通过种子uid获取其粉丝，再递归抓取粉丝的uid，实现指数级增长的数据抓取策略。

摘要由CSDN通过智能技术生成

	我也不喜欢说废话，来救直接上，项目要求爬微博，**存成四张表**，分别是用户信息表，用户和用户关系表，微博信息表，微博和微博关系表，改为分布式爬虫可实现单日1000+的数据量，直接开始干把

准备：
首先你的准备好几百个微博账号，并获取cookie,楼主借鉴网上很多大神的方法，也是通过访问手机端拿到cookie，http://weibo.cn,比较简单，并且验证码是四宫格，相比于其他验证码，简单，网上很多破解的教程，这里不赘述，
然后就是代理池，微博那么大的数据量肯定是需要用代理的
思路：
通过观察手机端网页我们可以发现，微博的几个信息是可以构建的，user_info 可以在微博uid后面加上info，就能访问到详情页，同样，fans可以访问到粉丝页，profile可以访问到微博页，所以我们仅仅需要得到uid就够了，然后具体的请求再调用不用的collback即可
过程：
1：找到一个uid作为种子，爬去他的粉丝，再将粉丝的uid又作为种子，指数爆炸的抓取uid
```
2：例如uid=12345678911,然后构建三个请求，http://weibo.cn/12345678911/info,
http://weibo.cn/123456
```