使用scrapy-redis搭建分布式爬虫环境

最新推荐文章于 2023-11-14 11:28:22 发布

宵蓝

最新推荐文章于 2023-11-14 11:28:22 发布

阅读量857

点赞数

文章标签：数据库 python 爬虫

原文链接：http://www.cnblogs.com/pythoner6833/p/9148937.html

版权

本文介绍了scrapy-redis组件，用于在scrapy框架中构建分布式爬虫。内容包括scrapy-redis的特性、架构、安装方法、常用配置、键名介绍以及简单实例。scrapy-redis通过Redis数据库实现请求去重和任务分配，支持多个Spider共享请求队列，同时提供了数据持久化的处理方式。

摘要由CSDN通过智能技术生成

scrapy-redis简介

scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。

有如下特征：

 分布式爬取

　　您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。

 分布式数据处理

　　爬取到的scrapy的item数据可以推入到redis队列中，这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列，进行item数据持久化处理

 Scrapy即插即用组件

　　Scheduler调度器 + Duplication复制过滤器，Item Pipeline，基本spider

scrapy-redis架构

scrapy-redis整体运行流程如下：

1. 首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；

2. Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy-redis搭建分布式爬虫环境

scrapy-redis简介scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征： 分布式爬取　　您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布式数据处理　　爬取到的scrapy的item数据可以推入到redis队列...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。