scrapy使用Redis进行分布式爬取

Reidis的简介:

Redis 一个内存数据库,通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中,所以访问速度非常快,因此 Redis 大量用于缓存系统,存储热点数据,可以极大的提高网站的响应速度。
Redis 与其他 key - value 缓存产品有以下三个特点:

  • Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。

  • Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。

  • Redis支持数据的备份,即master-slave模式的数据备份。

Redis优点
(1)支持数据的持久化,通过配置可以将内存中的数据保存在磁盘中,Redis 重启以后再将数据加载到内存中;
(2)支持列表,哈希,有序集合等数据结构,极大的扩展了 Redis 用途;
(3)原子操作,Redis 的所有操作都是原子性的,这使得基于 Redis 实现分布式锁非常简单;
(4)支持发布/订阅功能,数据过期功能;

Redis的安装

Window 下安装

下载地址:https://github.com/microsoftarchive/redis/releases

Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包,下载完毕之后进行解压。解压后是如下界面
在这里插入图片描述
在此文件夹下按住shift键并点击鼠标右键选择在此处打开命令窗口选项。
并在命令窗口中输入

redis-server.exe redis.window.conf

如果想方便的话,可以把 redis 的路径加到系统的环境变量里,这样就省得再输路径了,后面的那个 redis.windows.conf 可以省略,如果省略,会启用默认的。输入之后,会显示如下界面:
在这里插入图片描述
说明服务启动成功。
如果想要对Redis进行操作,可以选择使用可视化软件进行安装,也可以选择另外开启一个命令窗口,但是要注意刚刚的窗口不可以关闭,负责不可以连接成功。

Ubuntu 下安装

在 Ubuntu 系统安装 Redis 可以使用以下命令:

$sudo apt-get update
$sudo apt-get install redis-server

启动 Redis

$ redis-server

查看 redis 是否启动?

$ redis-cli

以上命令将打开以下终端:

redis 127.0.0.1:6379>

127.0.0.1 是本机 IP ,6379 是 redis 服务端口。现在我们输入 PING 命令。

redis 127.0.0.1:6379> ping
PONG

以上说明我们已经成功安装了redis。

Redis的数据类型

Redis通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。

1、String(子串类型)

set 命令:设置一个键和值,键存在则只覆盖,返回ok
set 键 值 例如: set name zhangsan
get 命令:获取一个键的值,返回值
get 键 例如:>get name
setnx命令:设置一个不存在的键和值(防止覆盖),
setnx 键 值 若键已存在则返回0表示失败
setex命令:设置一个指定有效期的键和值(单位秒)
setex 键 [有效时间] 值 例如: >setex color 10 red
不写有效时间则表示永久有效,等价于set
setrange命令:替换子字符串 (替换长度由子子串长度决定)
setrange 键 位置 子字串
例如: setrange name 4 aa 将name键对应值的第4个位置开始替换
mset命令:批量设置键和值,成功则返回ok
mset 键1 值1 键2 值2 键3 值3 …
msetnx命令:批量设置不存在的键和值,成功则返回ok
msetnx 键1 值1 键2 值2 键3 值3 …
getset命令:获取原值,并设置新值
getrange命令:获取指定范围的值
getrange 键 0 4
获取指定0到4位置上的值
mget命令: 批量获取值
mget 键1 键2 键3…
incr命令: 指定键的值做加加操作,返回加后的结果。
incr 键 例如: >incr kid
incrby命令: 设置某个键加上指定值
incrby 键 m //其中m可以是正整数或负整数
decr命令: 指定键的值做减减操作,返回减后的结果。
decr 键 例如: >decr kid
decrby命令: 设置某个键减上指定值
decrby 键 m //其中m可以是正整数或负整数
append命令:给指定key的字符串追加value,返回新字符串值的长度
append 键 追加字串
strlen求长度
strlen 键名 //返回对应的值。

2、Hash类型
Redis hash 是一个string类型的field和value的映射表,hash特别适合用于存储对象。

hset命令:设置一个哈希表的键和值
hset hash名 键 值
如:>hset user:001 name zhangsan
hget命令: 获取执行哈希名中的键对应值
hsetnx命令:设置一个哈希表中不存在的键和值
hsetnx hash名 键 值 //成功返回1,失败返回0
如:>hsetnx user:001 name zhangsan
hmset命令:hmset user:001 username zhangsan age 20 sex 1 批量设置
hmget user:001 username age sex:批量获取值
hexists user:001 name //是否存在, 若存在返回1
hlen user:001 //获取某哈希user001名中键的数量
hdel user:001 name //删除哈希user:001 中name键
hkeys user:002 //返回哈希名为user:002中的所有键。
hvals user:002 //返回哈希名为user:002中的所有值。
hgetall user:002 //返回哈希名为user:002中的所有键和值。

3、List列表(双向链表结构)
Redis列表是简单的字符串列表,按照插入顺序排序。你可以添加一个元素到列表的头部(左边)或者尾部(右边),list即可以作为“栈”也可以作为"队列"。

lpush list1 “world” //在list1头部压入一个字串
lpush list1 “hello” // 在list1头部压入一个字串
lrange list1 0 -1 //获取list1中全部内容
0:表示开头 -1表示结尾。
rpush list2 “world” //在list2尾部压入一个字串
rpush list2 “hello” // 在list2尾部压入一个字串
lrange list2 0 -1 //获取list2中内容
0:表示开头 -1表示结尾。
linsert list2 before hello there//在key对应list的特定位置前或后添加字符串
lset list2 1 “four”//修改指定索引位置上的值
lrem list2 2 “hello” //删除前两个hello值
lrem list2 -2 “hello” //删除后两个hello值
lrem list2 0 “hello” //删除所有hello值
ltrim mylist8 1 3 //删除此范围外的值
lpop list2 //从list2的头部删除元素,并返回删除元素
rpop list2 //从list2的尾部删除元素,并返回删除元素
rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回
lindex list2 1 //返回list2中索引位置上的元素
llen list2 //返回list2上长度

4、Redis 集合(Set)
Redis的Set是string类型的无序集合。集合成员是唯一的,这就意味着集合中不能出现重复的数据。

sadd myset “hello” //向myset中添加一个元素
成功返回1,失败(重复)返回0
smembers myset //获取myset中的所有元素(结果是无序的)
srem myset “one” //从myset中删除一个one
成功返回1,失败(不存在)返回0
spop myset //随机返回并删除myset中的一个元素
srandmember myset //随机获取myset中的一个元素,但是不删除
smove myset1 myset2 zhangsan:将myset1中zhangsan移动到myset2中
scard myset1 返回myset1的个数
sismember myset zhangsan:判断张三是否在myset中
sdiff myset1 myset2 //返回两个集合的差集
以myset1为标准,获取myset2中不存在的。
sdiffstore dstset myset1 myset2 …// 返回所有集合的差集,并保存到dstset中
sinter myset1 myset2 myset3… // 返回N个集合中的交集
sinterstore dstset myset1 myset2 … // 返回N个集合的交集并存储到dstset中
sunion myset1 myset2 …//返回所有集合的并集
sunionstore dstset myset1 myset2// 返回所有集合的并集,并存储到dstset中

5、Redis 有序集合Sset (sorted set)
Redis 有序集合和集合一样也是string类型元素的集合,且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
有序集合的成员是唯一的,但分数(score)却可以重复。

zadd zset 1 one 向zset中添加one,排序为1排序
zrem zset one:删除zset中one
zincrby zset 2 one:如果one存在,则顺序增加2,如果one不存在,那么就是2
zrank zset one:返回one在zset中排名(从小到大的排序)
zrevrank zset one:返回one在zset中排名(从大到小的排序)
zrange zset 0 -1 withscores:根据score排序(根据score从小到大排序)
zrevrange zset 0 -1 withscores:根据score排序(根据score从大到小排序)
zrangebyscore zset 2 3 withscores:返回集合中score在给定区间的元素(包含2和5)
zcount zset 2 3:返回集合中给定区间的数量
zcard zset:返回集合中元素的个数
zscore zset one:返回one元素的score
zremrangebyrank zset 3 3:删除集合中排名在给定区间的元素
zremrangebyscore zset 1 2:将zset中从小到大排序结果的score在1-2之间的删除

scrapy中的分布式部署

分布式工作原理:
分为主机与从机,主机与从机连接同一Redis数据库,主机中将需要从机进行处理的任务放入Redis中,众多的从机在主机将数据放入Redis数据库的一刻开始工作。当从机取走一个数据后,该数据即在Redis数据库中消失,因此不会存在各从机之间重复处理同一任务的情况。

分布式建立步骤:
1、创建工程
2.把scrapy-redis包拷贝到项目中
安装 pip install scrapy-redis之后,直接使用from导入即可。

3.在settings.py中配置路径,任意位置均可
直接复制粘贴即可,IP地址需要修改

    #调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    #去重
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    #redis服务器地址
    REDIS_HOST = 'localhost'
    #redis端口号
    REDIS_PORT = 6379
    ##开启队列
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

4、修改配置文件
打开Redis目录找到redis.windows.conf文件,修改如下三个配置。
在这里插入图片描述

5、修改爬虫文件,尤其注意redis_key的值为主机中push进Redis中的key的值。

在这里插入图片描述
配置、启动redis数据库,把运行url队列写进redis
下图是Redis主机中的配置,这里只简单的让主机存储了一些我们需要爬取的url,也可以让主机存储处理更复杂的事情再分给从机进行处理。在使用时,先运行爬虫,这时候爬虫会阻塞,因为没有来自主机的信息存在,也就是从机还不知道应该去哪个网站爬取数据。运行了主机文件之后,从机开始工作,爬取开始。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值