scrapy使用Redis进行分布式爬取

最新推荐文章于 2024-08-12 16:24:57 发布

wapecheng

最新推荐文章于 2024-08-12 16:24:57 发布

阅读量496

点赞数

分类专栏：学习笔记文章标签： scrapy Redis

本文链接：https://blog.csdn.net/wapecheng/article/details/95512182

版权

学习笔记专栏收录该内容

57 篇文章 11 订阅

订阅专栏

Reidis的简介：

Redis 一个内存数据库，通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中，所以访问速度非常快，因此 Redis 大量用于缓存系统，存储热点数据，可以极大的提高网站的响应速度。
Redis 与其他 key - value 缓存产品有以下三个特点：

Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。
Redis支持数据的备份，即master-slave模式的数据备份。

Redis优点
(1)支持数据的持久化，通过配置可以将内存中的数据保存在磁盘中，Redis 重启以后再将数据加载到内存中；
(2)支持列表，哈希，有序集合等数据结构，极大的扩展了 Redis 用途；
(3)原子操作，Redis 的所有操作都是原子性的，这使得基于 Redis 实现分布式锁非常简单；
(4)支持发布/订阅功能，数据过期功能；

Redis的安装

Window 下安装

下载地址：https://github.com/microsoftarchive/redis/releases。

Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择，这里我们下载 Redis-x64-xxx.zip压缩包，下载完毕之后进行解压。解压后是如下界面
在这里插入图片描述
在此文件夹下按住shift键并点击鼠标右键选择在此处打开命令窗口选项。
并在命令窗口中输入

redis-server.exe redis.window.conf

如果想方便的话，可以把 redis 的路径加到系统的环境变量里，这样就省得再输路径了，后面的那个 redis.windows.conf 可以省略，如果省略，会启用默认的。输入之后，会显示如下界面：
在这里插入图片描述
说明服务启动成功。
如果想要对Redis进行操作，可以选择使用可视化软件进行安装，也可以选择另外开启一个命令窗口，但是要注意刚刚的窗口不可以关闭，负责不可以连接成功。

Ubuntu 下安装

在 Ubuntu 系统安装 Redis 可以使用以下命令:

$sudo apt-get update
$sudo apt-get install redis-server

启动 Redis

$ redis-server

查看 redis 是否启动？

$ redis-cli

以上命令将打开以下终端：

redis 127.0.0.1:6379>

127.0.0.1 是本机 IP ，6379 是 redis 服务端口。现在我们输入 PING 命令。

redis 127.0.0.1:6379> ping
PONG

以上说明我们已经成功安装了redis。

Redis的数据类型

Redis通常被称为数据结构服务器，因为值(value)可以是字符串(String)，哈希(Hash)，列表(list)，集合(sets) 和有序集合(sorted sets)等类型。

1、String(子串类型)

set 命令：设置一个键和值，键存在则只覆盖，返回ok
set 键值例如： set name zhangsan
get 命令：获取一个键的值，返回值
get 键例如：>get name
setnx命令：设置一个不存在的键和值(防止覆盖)，
setnx 键值若键已存在则返回0表示失败
setex命令：设置一个指定有效期的键和值(单位秒)
setex 键 [有效时间] 值例如: >setex color 10 red
不写有效时间则表示永久有效，等价于set
setrange命令：替换子字符串 (替换长度由子子串长度决定)
setrange 键位置子字串
例如： setrange name 4 aa 将name键对应值的第4个位置开始替换
mset命令：批量设置键和值，成功则返回ok
mset 键1 值1 键2 值2 键3 值3 …
msetnx命令：批量设置不存在的键和值，成功则返回ok
msetnx 键1 值1 键2 值2 键3 值3 …
getset命令：获取原值，并设置新值
getrange命令：获取指定范围的值
getrange 键 0 4
获取指定0到4位置上的值
mget命令：批量获取值
mget 键1 键2 键3…
incr命令：指定键的值做加加操作，返回加后的结果。
incr 键例如： >incr kid
incrby命令：设置某个键加上指定值
incrby 键 m //其中m可以是正整数或负整数
decr命令：指定键的值做减减操作，返回减后的结果。
decr 键例如： >decr kid
decrby命令：设置某个键减上指定值
decrby 键 m //其中m可以是正整数或负整数
append命令：给指定key的字符串追加value，返回新字符串值的长度
append 键追加字串
strlen求长度
strlen 键名 //返回对应的值。

2、Hash类型
Redis hash 是一个string类型的field和value的映射表，hash特别适合用于存储对象。

hset命令：设置一个哈希表的键和值
hset hash名键值
如：>hset user:001 name zhangsan
hget命令：获取执行哈希名中的键对应值
hsetnx命令：设置一个哈希表中不存在的键和值
hsetnx hash名键值 //成功返回1，失败返回0
如：>hsetnx user:001 name zhangsan
hmset命令:hmset user:001 username zhangsan age 20 sex 1 批量设置
hmget user:001 username age sex:批量获取值
hexists user:001 name //是否存在，若存在返回1
hlen user:001 //获取某哈希user001名中键的数量
hdel user:001 name //删除哈希user:001 中name键
hkeys user:002 //返回哈希名为user:002中的所有键。
hvals user:002 //返回哈希名为user:002中的所有值。
hgetall user:002 //返回哈希名为user:002中的所有键和值。

3、List列表(双向链表结构)
Redis列表是简单的字符串列表，按照插入顺序排序。你可以添加一个元素到列表的头部(左边)或者尾部(右边)，list即可以作为“栈”也可以作为"队列"。

lpush list1 “world” //在list1头部压入一个字串
lpush list1 “hello” // 在list1头部压入一个字串
lrange list1 0 -1 //获取list1中全部内容
0:表示开头 -1表示结尾。
rpush list2 “world” //在list2尾部压入一个字串
rpush list2 “hello” // 在list2尾部压入一个字串
lrange list2 0 -1 //获取list2中内容
0:表示开头 -1表示结尾。
linsert list2 before hello there//在key对应list的特定位置前或后添加字符串
lset list2 1 “four”//修改指定索引位置上的值
lrem list2 2 “hello” //删除前两个hello值
lrem list2 -2 “hello” //删除后两个hello值
lrem list2 0 “hello” //删除所有hello值
ltrim mylist8 1 3 //删除此范围外的值
lpop list2 //从list2的头部删除元素，并返回删除元素
rpop list2 //从list2的尾部删除元素，并返回删除元素
rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回
lindex list2 1 //返回list2中索引位置上的元素
llen list2 //返回list2上长度

4、Redis 集合(Set)
Redis的Set是string类型的无序集合。集合成员是唯一的，这就意味着集合中不能出现重复的数据。

sadd myset “hello” //向myset中添加一个元素
成功返回1，失败(重复)返回0
smembers myset //获取myset中的所有元素(结果是无序的)
srem myset “one” //从myset中删除一个one
成功返回1，失败(不存在)返回0
spop myset //随机返回并删除myset中的一个元素
srandmember myset //随机获取myset中的一个元素，但是不删除
smove myset1 myset2 zhangsan:将myset1中zhangsan移动到myset2中
scard myset1 返回myset1的个数
sismember myset zhangsan:判断张三是否在myset中
sdiff myset1 myset2 //返回两个集合的差集
以myset1为标准，获取myset2中不存在的。
sdiffstore dstset myset1 myset2 …// 返回所有集合的差集，并保存到dstset中
sinter myset1 myset2 myset3… // 返回N个集合中的交集
sinterstore dstset myset1 myset2 … // 返回N个集合的交集并存储到dstset中
sunion myset1 myset2 …//返回所有集合的并集
sunionstore dstset myset1 myset2// 返回所有集合的并集，并存储到dstset中

5、Redis 有序集合Sset (sorted set)
Redis 有序集合和集合一样也是string类型元素的集合，且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
有序集合的成员是唯一的，但分数(score)却可以重复。

zadd zset 1 one 向zset中添加one，排序为1排序
zrem zset one:删除zset中one
zincrby zset 2 one:如果one存在，则顺序增加2，如果one不存在，那么就是2
zrank zset one:返回one在zset中排名(从小到大的排序)
zrevrank zset one:返回one在zset中排名(从大到小的排序)
zrange zset 0 -1 withscores:根据score排序(根据score从小到大排序)
zrevrange zset 0 -1 withscores:根据score排序(根据score从大到小排序)
zrangebyscore zset 2 3 withscores:返回集合中score在给定区间的元素(包含2和5)
zcount zset 2 3:返回集合中给定区间的数量
zcard zset:返回集合中元素的个数
zscore zset one:返回one元素的score
zremrangebyrank zset 3 3:删除集合中排名在给定区间的元素
zremrangebyscore zset 1 2:将zset中从小到大排序结果的score在1-2之间的删除

scrapy中的分布式部署

分布式工作原理：
分为主机与从机，主机与从机连接同一Redis数据库，主机中将需要从机进行处理的任务放入Redis中，众多的从机在主机将数据放入Redis数据库的一刻开始工作。当从机取走一个数据后，该数据即在Redis数据库中消失，因此不会存在各从机之间重复处理同一任务的情况。

分布式建立步骤：
1、创建工程
2.把scrapy-redis包拷贝到项目中
安装 pip install scrapy-redis之后，直接使用from导入即可。

3.在settings.py中配置路径，任意位置均可
直接复制粘贴即可，IP地址需要修改

    #调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    #去重
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    #redis服务器地址
    REDIS_HOST = 'localhost'
    #redis端口号
    REDIS_PORT = 6379
    ##开启队列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

4、修改配置文件
打开Redis目录找到redis.windows.conf文件，修改如下三个配置。
在这里插入图片描述

5、修改爬虫文件，尤其注意redis_key的值为主机中push进Redis中的key的值。

在这里插入图片描述
配置、启动redis数据库，把运行url队列写进redis
下图是Redis主机中的配置，这里只简单的让主机存储了一些我们需要爬取的url，也可以让主机存储处理更复杂的事情再分给从机进行处理。在使用时，先运行爬虫，这时候爬虫会阻塞，因为没有来自主机的信息存在，也就是从机还不知道应该去哪个网站爬取数据。运行了主机文件之后，从机开始工作，爬取开始。
在这里插入图片描述