python 分布式爬虫实现流程和相关设置

最新推荐文章于 2023-07-10 13:45:00 发布

无恶不作杰尼龟

最新推荐文章于 2023-07-10 13:45:00 发布

阅读量205

点赞数 1

分类专栏： python爬虫 scrapy 分布式文章标签： python 分布式 redis

本文链接：https://blog.csdn.net/TTXSDEKK/article/details/110868031

版权

python爬虫同时被 3 个专栏收录

13 篇文章 5 订阅

订阅专栏

scrapy

3 篇文章 0 订阅

订阅专栏

分布式

1 篇文章 0 订阅

订阅专栏

分布式爬虫

概念：搭建一个分布式的机群，让其对一组资源进行分布联合爬取。
作用：大大提升爬取数据的效率

如何实现分布式？

安装一个scrapy-redis的组件（原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫）
scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器
实现流程
- 创建一个工程
- 创建一个爬虫文件
- 修改当前的爬虫文件：
  - 导包：from scrapy_redis.spiders import RedisSpider
  - 将start_urls和allowed_domains进行注释
  - 添加一个新属性：redis_key = 'XXX' 可以被共享的调度器队列的名称
  - 编写数据解析相关的操作
  - 将当前爬虫类的父类修改成RedisSpider
- 修改配置文件settings

               - 指定使用可以被共享的管道：
                    ITEM_PIPELINES = {
                        'scrapy_redis.pipelines.RedisPipeline': 400
                    }
                - 指定调度器：
                    # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
                    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
                    # 使用scrapy-redis组件自己的调度器
                    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
                    # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
                    SCHEDULER_PERSIST = True
                - 指定redis服务器：
                   REDIS_HOST = 'XXXXX'
                   REDIS_PORT = '6379'
                   REDIS_ENCODING = 'utf-8'

redis相关操作配置：
配置redis的配置文件：
- linux或者mac：redis.conf
- windows:redis.windows.conf
打开配置文件修改：
- 将bind 127.0.0.1进行删除
- 关闭保护模式：protected-mode yes改为no
结合着配置文件开启redis服务
- redis-server 配置文件
启动客户端：
- redis-cli
执行工程：
- scrapy runspider xxx.py
向调度器的队列中放入一个起始的url：
调度器的队列在redis的客户端中
- lpush xxx www.xxx.com
爬取到的数据存储在了redis的proName:items这个数据结构中

无恶不作杰尼龟

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python 分布式爬虫实现流程和相关设置

分布式爬虫概念：搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：大大提升爬取数据的效率如何实现分布式？安装一个scrapy-redis的组件（原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫）scrapy-redis组件可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程创建一个工程创建一个爬虫文件修改当前的爬虫文件：- 导包：from scrapy_redis.spiders impor
复制链接

扫一扫