Scrapy-redis实现分布式爬虫

爬虫框架 Scrapy

Scrapy is a free and open source web crawling framework, written in Python. Originally designed for web scraping, it can also be used to extract data using APIs or as a general purpose web crawler.

之前两篇文章梳理了 Scrapy 框架的结构,组件和工作流程,并给出简单的使用示例, 具体参考:
- Scrapy 基础入门

这里写图片描述


Key-Value 内存数据库 Redis

Redis is an open-source in-memory database project implementing a distributed, in-memory key-value store with optional durability.

REmote DIctionary Server(Redis)是一个由 Salvatore Sanfilippo 写的 key-value 存储系统。

Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。

它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Map), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。

基础的 Redis 操作参考文章:Redis 基础入门


Scrapy_redis 实现调度

Scrapy_redis 工作原理

假设你现在有 100 台机器可以用,怎么实现一个分布式的爬取算法呢?

我们把这 100 台中的 99 台运算能力较小的机器叫作 slave,另外一台较大的机器叫作 master。如果我们能把任务队列 queue 放到这台 master 机器上,所有的 slave 都可以通过网络跟 master 联通,每当一个 slave 完成一个请求,就从 master 获取一个新的请求。而每次 slave 新抓到一个网页,就把这个网页上所有的链接送到 master 的 queue 里去。

其中的分布式体现在多台机器上的 spider 同时爬取,并且这种分布式是通过 scrapy_redis 实现的。Redis 中存储了工程的 request,stats 信息,能够对各个机器上的爬虫实现集中管理,这样可以解决爬虫的性能瓶颈,利用 Redis 的高效和易于扩展能够轻松实现高效率下载:当 Redis 存储或者访问速度遇到瓶颈时,可以通过增大 Redis 集群数和爬虫集群数量改善。

本质上说,就是大家(所有机器,所有爬虫)把拿到的东西(url,request)放在一起(redis queue)去调度。

这里写图片描述

Scrapy_redis 源码学习 详细介绍了使用 Redis 实现分布式的思路和具体实现。新的架构如图:

这里写图片描述

在 Scrapy 中使用 scrapy_redis

settings

除了 Scrapy 自带的配置,scrapy_redis 增加了一些用于管理 Redis 服务器连接ÿ

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值