爬虫 - Scrapy - 分布式爬虫

最新推荐文章于 2022-02-01 18:09:14 发布

学习中的小菜鸟.

最新推荐文章于 2022-02-01 18:09:14 发布

阅读量92

点赞数

分类专栏：爬虫 Scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/qq_33962481/article/details/116563062

版权

爬虫同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

Scrapy

10 篇文章 0 订阅

订阅专栏

文章目录

一、如何实现分布式
- 1. 实现流程

一、如何实现分布式

安装一个scrapy-redis的组件 : pip install scrapy-redis

1. 实现流程

创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改爬虫文件
- 导包 : from scrapy_redis.spiders import RedisCrawlSpider
- 将start_urls和allowed_domains进行注释
- 添加一个新属性 : redis_key = ‘sun’ , 表示可以被共享的调度器队列的名称
- 编写数据解析相关操作
- 将当前爬虫类的父类修改成RedisCrawlSpider
修改爬虫文件
- 指定使用可以被共享的管道

# 指定管道
ITEM_PIPELINES = {
	'scrapy_redis.pipelines.RedisPipeline' : 400
}

- 指定调度器

# 增加一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据.
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束, 要不要情况Redis中请求队列和去重指纹的set
SCHEDULER_PERSIST = True

redis相关操作配置
- 配置redis的配置文件 :
  - linux或者mac系统 : redis.conf
  - windows : redis.windows.conf
  - 修改 :
    - 注释默认绑定 : bind 127.0.0.1
    - 关闭保护模式 : protected-mode no
  - 结合配置文件开启redis服务
    - redis-server 配置文件
  - 启动客户端 :
    - redis-cli
执行工程:
- scrapy runspider xxx.py
向调度器的队列中放入一个起始的url :
- 调度器的队列在redis的客户端中
  - lpush 队列名称起始url

学习中的小菜鸟.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫 - Scrapy - 分布式爬虫

文章目录一、如何实现分布式1. 实现流程一、如何实现分布式安装一个scrapy-redis的组件 : pip install scrapy-redis1. 实现流程创建一个工程创建一个基于CrawlSpider的爬虫文件修改爬虫文件导包 : from scrapy_redis.spiders import RedisCrawlSpider将start_urls和allowed_domains进行注释添加一个新属性 : redis_key = ‘sun’ , 表示可以被共享的调度器
复制链接

扫一扫

专栏目录