scrapy | scrapy-redis实现分布式爬取：原理，实战案例（虚拟机）

最新推荐文章于 2024-08-09 08:13:12 发布

大毛毛毛毛要开花

最新推荐文章于 2024-08-09 08:13:12 发布

阅读量6.6k

点赞数 6

分类专栏：爬虫文章标签： scrapy Redis

本文链接：https://blog.csdn.net/weixin_42622084/article/details/81434854

版权

本文详细介绍了使用scrapy-redis实现分布式爬虫的原理和实战步骤，包括分布式爬虫的概念、scrapy-redis的组件如Scheduler、Duplication Filter和Item Pipeline的作用，以及如何配置和运行分布式爬虫。通过scrapy-redis，可以利用Redis的特性实现爬虫的URL去重和任务调度，从而提高爬取效率。

摘要由CSDN通过智能技术生成

1.概念：分布式爬虫

由于需要爬取的数据量大，任务多，一台机器效率太低，需要多台机器共同协作处理。分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。

分布式爬虫可以分为若干个分布式层级，不同的应用可能由其中部分层级构成。

大型分布式爬虫主要分为以下3个层级：分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫系统由全球多个分布式数据中心共同组成，每个数据中心又由多台高速网络连接的抓取服务器构成，而每台服务器又可以部署多个爬虫程序。通过多层级的分布式爬虫体系，才可能保证抓取数据的及时性和全面性。

作为一个分布式爬虫，是需要有一个Master端（核心服务器）的，在Master端，会搭建一个数据库，用来存储start_urls、request、items。Master的职责是负责url指纹判重，Request的分配，以及数据的存储（一般在Master端会安装一个mongodb用来存储items）。出了Master之外，还有一个角色就是slaver（爬虫程序执行端），它主要负责执行爬虫程序爬取数据，并将爬取过程中新的Request提交到Master的数据库中。

如上图，假设我们有四台电脑：A， B， C， D ，其中任意一台电脑都可以作为 Master端或 Slaver端。整个流程是：