第十四讲 Scrapy-redis 分布式

最新推荐文章于 2023-04-27 22:47:54 发布

东俊

最新推荐文章于 2023-04-27 22:47:54 发布

阅读量123

点赞数

分类专栏： # 爬虫学习笔记文章标签：队列分布式 redis

本文链接：https://blog.csdn.net/lxd1908717401/article/details/107524164

版权

爬虫学习笔记专栏收录该内容

25 篇文章 3 订阅

订阅专栏

Scrapy-redis 分布式

redis的安装
客户端和服务命令
redis数据
scrapy-redis分布式原理
scrapy部署流程

使用分布式来加快爬的速度。—大数据。

redis的安装

将压缩包解压到指定目录，就安装好了。
配置环境变量
测试是否安装成功，在cmd中输入redis-server：
在这里插入图片描述

客户端和服务命令

在这里插入图片描述
配置文件如下：

redis数据

在这里插入图片描述
这部分有很多比较详细的文档可以查阅参考。

scrapy-redis分布式原理

在这里插入图片描述

指纹集合作用和原理：

任务队列原理：使用的数据结构为有序集合zset，特征是有scores字段。
特点是实时更新顺序，因此可以用来排列任务。

scrapy部署流程

（一）主机配置
1、导入包

from scrapy_redis import spiders

2、将start_urls注释调，因为scrapy-redis是从redis中读取初始任务的，不需要start_urls：
在这里插入图片描述
然后重写类：

3、主机写入初始化redis的初始url列表的代码。
主机：就是使用的哪台电脑上的redis和mongo，哪台电脑就是主机。
在这里插入图片描述

4、在spider中设置读取初始任务的代码，方法如下：

这里的redis-key就表示将来项目启动后就会从redis中的这个key所对应的列表中获取url。
5、在settings.py中添加如下配置：

# 这三条主机和从机都要添加：配置调度器和去重指纹集合。
#配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#配置url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#配置优先级队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

##端口号
REDIS_PORT = 6379
MONGO_DATABASE = 'caixi'


#主机和从机不一样的：
#主机名
REDIS_HOST = 'localhost'
MONGO_URI = 'localhost'
#【主机才负责初始化redis的任务列表】
#从机里面：	主机ip要确定
REDIS_HOST = '目标主机的ip'
MONGO_URI = '目标主机的ip'

（二）从机配置
在主机配置的基础上进行改写即可。
1、首先注释掉redis_urls.py文件中所有的代码，因为从机是从主机中取出任务的。
在这里插入图片描述
2、将settings中的配置改一下：
就是把下述两行改掉：

REDIS_HOST = '目标主机的ip'
MONGO_URI = '目标主机的ip'

东俊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第十四讲 Scrapy-redis 分布式

Scrapy-redis 分布式redis的安装客户端和服务命令redis数据scrapy-redis分布式原理scrapy部署流程使用分布式来加快爬的速度。—大数据。redis的安装将压缩包解压到指定目录，就安装好了。配置环境变量测试是否安装成功，在cmd中输入redis-server：客户端和服务命令配置文件如下：redis数据这部分有很多比较详细的文档可以查阅参考。scrapy-redis分布式原理指纹集合作用和原理：任务队列原理：使用的数据结构为有序集合zset，
复制链接

扫一扫