scrapy_redis实现分布式爬虫

最新推荐文章于 2024-01-03 02:06:46 发布

3+2=小5？

最新推荐文章于 2024-01-03 02:06:46 发布

阅读量175

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/lnxcw/article/details/106635814

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、认识与安装scrapy_redis库
1、认识scrapy_redis库
scrapy_redis库：提供了所需的功能，scrapy_redis改写了scrapy的调度器、队列等组件，利用这个库可以方便地实现scrapy分布式架构。
2、安装scrapy_redis库

pip install scrapy_redis

二、代码编写

1、修改settings中的配置信息
（1）替换scrapy调度器，使用scrapy_redis调度。

SCHEDULER = “scrapy_redis.scheduler.Scheduler”

（2）使用scrapy_redis去重。

DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

（3）设置Redis的连接信息，这里的可以设置用户名和密码，如果没有则为空。

REDIS_URL = “redis://localhost:6379”

（4）设置Redis队列是否保存。

SCHEDULER_PERSIST = True

如果设置为TRUE，则不会清空Redis里面的去重队列和请求队列，这样设置后，去重队列和请求队列会一直保存在Redis数据库中，用户可以暂停和启动爬虫而不影响继续去重。
（5）设置重启爬虫时是否清空爬虫队列。

SCHEDULER_FLUSH_ON_START = True

如果设置为True，每次重启爬虫，系统都会清空去重队列和请求队列，一般设置为False。
2、修改spider文件：
当使用scrapy_redis编写分布式爬虫时，需要将爬虫类修改为继承自scrapy_redis.spiders.RedisCrawSpider类。

from scrapy_redis.spiders import RedisCrawlSpider
from lianjia01.items import Lianjia01Item
class LianjiaSpider(RedisCrawlSpider):
name = ‘lianjia’
allowed_domains = [‘m.lianjia.com’]
redis_key = ‘LianjiaSpider:start_urls’
……

修改完成后启动爬虫。因为代码中没有指定初始URL，爬虫会一直等待，没有爬取任何网页。用户可以手动向Redis的初始URL队列中添加URL，队列的名称为：LianjiaSpider:start_urls。
默认情况下，在命令行定位到Redis目录，采用集合的命令进行添加：

redis-cli
lpush LianjiaSpider:start_urls https://m.lianjia.com/bj/jingjiren/ao22pg1

在这里插入图片描述

3+2=小5？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy_redis实现分布式爬虫

一、认识与安装scrapy_redis库1、认识scrapy_redis库scrapy_redis库：提供了所需的功能，scrapy_redis改写了scrapy的调度器、队列等组件，利用这个库可以方便地实现scrapy分布式架构。2、安装scrapy_redis库pip install scrapy_redis二、代码编写1、修改settings中的配置信息（1）替换scrapy调度器，使用scrapy_redis调度。SCHEDULER = “scrapy_redis.schedu
复制链接

扫一扫

专栏目录