scrapy-redis顾名思义,主体还是是 redis 和 scrapy 两个库,redis扮演着不可替代的工作,这里对redis进行详尽的解释,来帮助理解scrapy-redis,这对于学习分布式爬虫意义非凡。
Redis 是一个开源的,内存数据库,它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构:字符串,哈希,列表,集合,有序集合等 文档:http://www.redis.cn/commands.html
远程连接 redis 数据库: redis-cli -h -p
redis 操作
select 1 切换到 db1,默认 db0
keys * 查看所有的 redis 键
type '键' 查看键的数据类型
flushdb 清空当前 db
flushall 清空所有 db
列表
LPUSH mylist "world" 想 mylist 从左边添加一个值
LRANGE mylist 0 -1 返回 mylist 中所有的值
LLEN mylist 返回 mylist 的长度
set
SADD myset "Hello" 往 set 中添加数据
SMEMBERS myset 获取 myset 中所有的元素
SCARD myset 获取元素数量
zset
向 myzset 中添加一个值和分数,如果存在,就更新分数,分数可以相同
ZADD myzset 1 "one"
ZADD myzset 2 "two" 3 "three"
ZRANGE myzset 0 -1 HITHSCORES 遍历 myzset
ZCARD myzset 返回 myzset 中元素数量
ubuntu 下 redis 安装
官网下载: https://redis.io/download
解压: tar zxvf redis-4.0.8.tar.gz 会在当前目录下生成文件夹 redis-4.0.8,
我把它移动到了/usr/redis 目录下: cd /usr/local sudo mkdir redis sudo mv /home/tom/桌面/software/redis-4.0.8/* ./redis
进入 redis 目录 cd /usr/local/redis/
如果没有安装 gcc,需要先安装: sudo apt-get install gcc
生成安装: sudo make sudo make install
复制 redis.conf 配置文件: sudo mkdir /etc/redis sudo cp /usr/local/redis/redis.conf /etc/redis/
一般配置文件都放在/etc/目录下 打开配置文件 redis.conf
# bind 127.0.0.1 注释掉
protected-mode no 去掉保护模式
启动服务端的时候没有带上配置文件
redis-server redis.conf
要想学会分布式爬虫,必须熟悉redis的各种操作,所以必须先要打好基础