分布式爬虫—原理

原理

这就是scrapy爬虫框架的流程
从下往上看,Spiders生成的请求经由Scheduler调度器发送给Downloader下载器,Downloader下载器从internet下载所需要的网络数据,返回response给Spiders,Spiders接着把数据放进item容器
而scrapy-redis就是建立一个redis队列,调度器把Spiders生成的请求发送给redis队列,再用Scheduler从队列里取出请求,其他爬虫也可以从队列中取出请求。



 
每一个爬虫的调度器Scheduler都从队列中取出请求和存入请求,这样就实现多个爬虫,多台机器同时爬取的目标;
scrapy-redis分布式框架还有两个常用的功能,去重和启动判断(可以接着暂停的地方继续爬)。

转载于:https://www.cnblogs.com/zhangyang123/p/10701754.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值