scrapy爬取知乎,分布式爬虫

scrapy-redis 爬取知乎,构建分布式爬虫

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy-redis,数据存储使用mysql。
代码地址:https://github.com/affectalways/zhihu_distributed_by_scrapyRedis,欢迎各位大神指出问题 ^_^.

流程图


1. 请求https://www.zhihu.com获取页面中的_xsrf数据,知乎开启了跨站请求伪造功能,所有的POST请求都必须带上此参数。
2. 提交用户名,密码已经第一步解析的_xsrf参数到https://www.zhihu.com/login/phone_num,登陆获取cookies,同时解析到z_c0
3. 访问第一个用户主页,以我的主页为例https://www.zhihu.com/people/affectalways.cn/followers
4. 获取第一个主页的关注人数,并通过json获取关注者信息(name,url,gender)
5. 将上一步获取到的url push进zhihu:start_urls
6. 若是用户的关注人信息全部获取完毕,继续获取另一个用户的关注者
注意:用户信息去重是利用redis中的set。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值