scrapy监听redis_第七章第一节分布式爬虫库 scrapy-redis

最新推荐文章于 2022-11-25 17:45:00 发布

四散

最新推荐文章于 2022-11-25 17:45:00 发布

阅读量401

点赞数

文章标签： scrapy监听redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42656416/article/details/113316788

版权

如果觉得文章对您产生帮助的话, 欢迎关注Python开发之路(微信公众号: python-developer), 及时获取更多教程

关于scrapy基本的用法, 基本就讲完了, 这一章开始, 就讲一些相对来说比较实用的教程了. 第七章主要也是讲分布式的爬虫, 在大型爬虫里是必须掌握的方式

我们在开发爬虫时, 有时需要做大规模的爬虫, 单机的抓取速度非常受限, 所以就需要用分布式爬虫来提升速度

scrapy-redis作为官方推荐的分布式开发方案, 所以也是想从事爬虫工作的小伙伴必须学会的

scrapy-redis依赖于redis来做任务队列, 无论哪个爬虫服务器, 都可以从指定的队列中获取到任务来爬取, 当抓取的任务数量提升以后, 也可以通过增加服务器来提升抓取速度。

scrapy-redis的运行流程

将第一个任务写入到redis中,
scrapy-redis的调度器监听任务队列, 并且交给下载器完成下载
当遇到yield Request或yield FormRequest之类的, scrapy-redis会把Request对象pick up(序列化)后存入redis中.
如果指定pipline是scrapy-redis的pipeline, 并且遇到yield item, 则将item也存入redis中. 自己编写脚本从redis中读取抓取到的item

scrapy-redis的优势:

分布式爬虫, 可扩展性好
性能高, 队列实现是redis, 高效
爬虫编写方式基本不变, 之前的单机爬虫可以直接改成分布式

现在我们就来写一个简单的分布式爬虫

一、

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。