Python爬虫-Redis

本文介绍了如何使用Python和Redis构建代理IP池。首先讲解了Redis的基础操作,包括数据类型、键命令以及主从配置。接着展示了如何利用Redis存储和管理代理IP,通过多进程和多线程实现高效抓取和测试IP的有效性。最后,作者反思了项目中的效率问题,并提到在优化过程中遇到的挑战。
摘要由CSDN通过智能技术生成

Python爬虫-Redis

前言

作为跟MongoDB同样NoSQL阵营的Redis,也具有类似的“直爽快”特性。它本身读取速度快,又提供丰富的数据结构,避免程序员重复造轮子。大名鼎鼎的分布式scrapy也是基于redis,所以赶紧了解一下呗!

启动服务器

建议指定配置文件的方式启动,我的配置文件所在路径: /etc/redis/redis-server.conf 就不知道你们的是不是啦

启动方式:redis-server /etc/redis/redis-server.conf

启动客户端

  1. 进入命令行:redis-cli
  2. 退出客户端:exit

数据操作

redis是key-value的数据,key的类型是字符串,value类型可以是:string,hash,list,set,zset

string

最基本类型,最大存储512M数据,可存储任何数据:数字,图片,序列化对象等


  1. 设置键值:set key value
    这里写图片描述
  2. 也可以一次设置多个数据:mset key1 value1 key2 value2 key3 value3...这里写图片描述
  3. 获取键值:get key;也可以一次获取多个键值:mget key1 key2 key3... 这里写图片描述
    如果不存在,返回nil
  4. 甚至还能追加键值:append key value
    这里写图片描述
  5. 也可以获取键值长度(有点像C语法哇):strlen key
    这里写图片描述
  6. 也可以在设置键值的时候设置过期时间:setex key seconds value
    这里写图片描述
  7. 运算(键值要求为数值):incr key 键值+1;incrby key increment 键值指定+increment ;相对应的就有decr key 键值-1,decrby key increment 指定-increment
    这里写图片描述

键命令

(不仅仅针对于string类型,其他value类型的key都适用)


  1. 查找键:keys pattern(支持正则),所以查看全部键可以是keys *
    这里写图片描述
  2. 查看键是否存在:exists key,存在返回1,不存在返回0
    这里写图片描述
    也可以一次查询多个键:exists key1 key2 ...,返回值为总和
Scrapy-Redis是一个基于Scrapy框架的分布式爬虫解决方案,它使用Redis作为分布式队列和去重集合,实现了多个爬虫节点共享一个Redis队列和去重集合,从而实现了高效的分布式爬取。 使用Scrapy-Redis,你可以很容易地将一个单机版的Scrapy爬虫转换成一个分布式爬虫。下面是简单的步骤: 1. 安装Redis和Scrapy-Redis 首先需要安装Redis,并且确保Redis服务正常运行。另外,需要安装Scrapy-Redis库,可以通过pip命令来进行安装: ``` pip install scrapy-redis ``` 2. 修改爬虫设置 在Scrapy爬虫的settings.py文件中,需要添加如下配置: ``` # 启用Redis调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 启用Redis去重过滤器 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置Redis为调度器和去重过滤器的数据存储位置 REDIS_URL = 'redis://localhost:6379' ``` 3. 修改爬虫代码 在Scrapy爬虫的代码中,需要将原来的start_urls修改为redis_key,例如: ``` class MySpider(RedisSpider): name = 'myspider' redis_key = 'myspider:start_urls' ``` 另外,需要将原来的parse方法改为如下形式: ``` def parse(self, response): # 爬虫代码 yield scrapy.Request(url, callback=self.parse_item) ``` 4. 运行爬虫 在启动爬虫之前,需要先往Redis队列中添加起始URL,例如: ``` redis-cli lpush myspider:start_urls http://www.example.com ``` 然后在命令行中启动分布式爬虫,例如: ``` scrapy crawl myspider ``` 这样就可以启动一个分布式的Scrapy爬虫了。在多个爬虫节点共享同一个Redis队列和去重集合的情况下,可以大大提高爬取效率和速度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值