scrapy_redis实现分布式爬虫

一、认识与安装scrapy_redis库
1、认识scrapy_redis库
scrapy_redis库:提供了所需的功能,scrapy_redis改写了scrapy的调度器、队列等组件,利用这个库可以方便地实现scrapy分布式架构。
2、安装scrapy_redis库

pip install scrapy_redis

二、代码编写

1、修改settings中的配置信息
(1)替换scrapy调度器,使用scrapy_redis调度。

SCHEDULER = “scrapy_redis.scheduler.Scheduler”

(2)使用scrapy_redis去重。

DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

(3)设置Redis的连接信息,这里的可以设置用户名和密码,如果没有则为空。

REDIS_URL = “redis://localhost:6379”

(4)设置Redis队列是否保存。

SCHEDULER_PERSIST = True

如果设置为TRUE,则不会清空Redis里面的去重队列和请求队列,这样设置后,去重队列和请求队列会一直保存在Redis数据库中,用户可以暂停和启动爬虫而不影响继续去重。
(5)设置重启爬虫时是否清空爬虫队列。

SCHEDULER_FLUSH_ON_START = True

如果设置为True,每次重启爬虫,系统都会清空去重队列和请求队列,一般设置为False。
2、修改spider文件:
当使用scrapy_redis编写分布式爬虫时,需要将爬虫类修改为继承自scrapy_redis.spiders.RedisCrawSpider类。

from scrapy_redis.spiders import RedisCrawlSpider
from lianjia01.items import Lianjia01Item
class LianjiaSpider(RedisCrawlSpider):
name = ‘lianjia’
allowed_domains = [‘m.lianjia.com’]
redis_key = ‘LianjiaSpider:start_urls’
……

修改完成后启动爬虫。因为代码中没有指定初始URL,爬虫会一直等待,没有爬取任何网页。用户可以手动向Redis的初始URL队列中添加URL,队列的名称为:LianjiaSpider:start_urls。
默认情况下,在命令行定位到Redis目录,采用集合的命令进行添加:

redis-cli
lpush LianjiaSpider:start_urls https://m.lianjia.com/bj/jingjiren/ao22pg1

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值