Python爬虫 scrapy框架（五）分布式爬虫 scrapy-redis

最新推荐文章于 2023-12-21 22:28:21 发布

sharp_wu

最新推荐文章于 2023-12-21 22:28:21 发布

阅读量249

点赞数 1

分类专栏： Python 文章标签：分布式 python redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38232003/article/details/111318586

版权

scrapy框架

分布式爬虫

概念

搭建一个分布式的机群，让其对一组资源进行分布联合爬取

作用

提升爬取数据的效率

实现

原生的scrapy是不可以实现分布式爬虫的，必须结合着scrapy-redis组件一起实现分布式爬虫。

调度器不可以被分布式机群共享
管道不可以被分布式机群共享

安装scrapy-redis组件

 pip install scrapy-redis

scrapy-redis作用：

可以给原生的scrapy框架提供可以被共享的管道和调度器

实现流程

创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改爬虫文件
导包：from scrapy_redis.spiders import RedisCrawlSpider
将爬虫类文件的父类改为RedisCrawlSpider
注释：allowed_domains、start_urls
添加新属性：redis_key = ‘xxxx’ (可以被共享的调度器名称)
编写数据解析操作
修改配置文件settings
指定可以共享的管道和调度器
指定redis ip和地址（不设置默认本机）
redis相关操作配置
配置redis的配置文件
执行工程 scrapy runspider xxx.py
向调度器队列放入起始url：lpush 调度器名称起始url

创建工程

scrapy startproject fbsPro
cd fbsPro
scrapy genspider -t crawl fbs www.xxx.com

修改爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
fr

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫 scrapy框架（五）分布式爬虫 scrapy-redis

scrapy框架分布式爬虫概念搭建一个分布式的机群，让其对一组资源进行分布联合爬取作用提升爬取数据的效率实现原生的scrapy是不可以实现分布式爬虫的，必须结合着scrapy-redis组件一起实现分布式爬虫。调度器不可以被分布式机群共享管道不可以被分布式机群共享安装scrapy-redis组件 pip install scrapy-redisscrapy-redis作用：可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个基于Cr
复制链接

扫一扫

专栏目录

目录

分类专栏

Python 16篇
css 5篇
SQL 1篇
webpack 1篇
Vue 4篇
JavaScript 11篇
异步 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。