Scrapy-redis实现分布式爬虫

最新推荐文章于 2024-04-28 05:07:32 发布

pyfreyr

最新推荐文章于 2024-04-28 05:07:32 发布

阅读量1k

点赞数 1

分类专栏： scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/chenfeidi1/article/details/80890370

版权

爬虫框架 Scrapy

Scrapy is a free and open source web crawling framework, written in Python. Originally designed for web scraping, it can also be used to extract data using APIs or as a general purpose web crawler.

之前两篇文章梳理了 Scrapy 框架的结构，组件和工作流程，并给出简单的使用示例，具体参考：
- Scrapy 基础入门

这里写图片描述

Key-Value 内存数据库 Redis

Redis is an open-source in-memory database project implementing a distributed, in-memory key-value store with optional durability.

REmote DIctionary Server（Redis）是一个由 Salvatore Sanfilippo 写的 key-value 存储系统。

Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库，并提供多种语言的 API。

它通常被称为数据结构服务器，因为值（value）可以是字符串（String）, 哈希（Map）, 列表（list）, 集合（sets）和有序集合（sorted sets）等类型。

基础的 Redis 操作参考文章：Redis 基础入门

Scrapy_redis 实现调度

Scrapy_redis 工作原理

假设你现在有 100 台机器可以用，怎么实现一个分布式的爬取算法呢？

我们把这 100 台中的 99 台运算能力较小的机器叫作 slave，另外一台较大的机器叫作 master。如果我们能把任务队列 queue 放到这台 master 机器上，所有的 slave 都可以通过网络跟 master 联通，每当一个 slave 完成一个请求，就从 master 获取一个新的请求。而每次 slave 新抓到一个网页，就把这个网页上所有的链接送到 master 的 queue 里去。

其中的分布式体现在多台机器上的 spider 同时爬取，并且这种分布式是通过 scrapy_redis 实现的。Redis 中存储了工程的 request，stats 信息，能够对各个机器上的爬虫实现集中管理，这样可以解决爬虫的性能瓶颈，利用 Redis 的高效和易于扩展能够轻松实现高效率下载：当 Redis 存储或者访问速度遇到瓶颈时，可以通过增大 Redis 集群数和爬虫集群数量改善。

本质上说，就是大家（所有机器，所有爬虫）把拿到的东西（url，request）放在一起（redis queue）去调度。

这里写图片描述

Scrapy_redis 源码学习详细介绍了使用 Redis 实现分布式的思路和具体实现。新的架构如图：

这里写图片描述

在 Scrapy 中使用 scrapy_redis

settings

除了 Scrapy 自带的配置，scrapy_redis 增加了一些用于管理 Redis 服务器连接ÿ

最低0.47元/天解锁文章

pyfreyr

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Scrapy-redis实现分布式爬虫

爬虫框架 ScrapyKey-Value 内存数据库 RedisScrapy_redis 实现调度Scrapy_redis 工作原理在 Scrapy 中使用 scrapy_redissettingsSpiderDocker 部署 ScrapyDockerfileDocker-compose构建镜像启动 Redis 服务器启动爬虫服务查看服务关闭爬虫服务删...
复制链接

扫一扫