基于Scrapy分布式爬虫的开发与设计

最新推荐文章于 2020-09-02 15:47:15 发布

不谙世事的少年

最新推荐文章于 2020-09-02 15:47:15 发布

阅读量321

点赞数

@原文比我这详细

一、系统功能架构

在这里插入图片描述

系统功能架构图

分布式爬虫抓取系统主要包含以下功能：

1．爬虫功能：

爬取策略的设计

内容数据字段的设计

增量爬取

请求去重

2．中间件：

爬虫防屏蔽中间件

网页非200状态处理

爬虫下载异常处理

3．数据存储：

抓取字段设计

数据存储

4．数据可视化
二、系统分布式架构
分布式采用主从结构设置一个Master服务器和多个Slave服务器，Master端管理Redis数据库和分发下载任务，Slave部署Scrapy爬虫提取网页和解析提取数据，最后将解析的数据存储在同一个MongoDb数据库中。分布式爬虫架构如图所示。
在这里插入图片描述

分布式爬虫架构图

应用Redis数据库实现分布式抓取，基本思想是Scrapy爬虫获取的到的detail_request的urls都放到Redis Queue中，所有爬虫也都从指定的Redis Queue中获取requests，Scrapy-Redis组件中默认使用SpiderPriorityQueue来确定url的先后次序，这是由sorted set实现的一种非FIFO、LIFO方式。因此，待爬队列的共享是爬虫可以部署在其他服务器上完成同一个爬取任务的一个关键点。此外，在本文中，为了解决Scrapy单机局限的问题，Scrapy将结合Scrapy-Redis组件进行开发，Scrapy-Redis总体思路就是这个工程通过重写Scrapu框架中的scheduler和spider类，实现了调度、spider启动和redis的交互。实现新的dupefilter和queue类，达到了判重和调度容器和redis的交互，因为每个主机上的爬虫进程都访问同一个redis数据库，所以调度和判重都统一进行统一管理，达到了分布式爬虫的目的。

原文：https://blog.csdn.net/seven_2016/article/details/72802961

不谙世事的少年

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Scrapy分布式爬虫的开发与设计

一、系统功能架构系统功能架构图分布式爬虫抓取系统主要包含以下功能：1．爬虫功能：爬取策略的设计内容数据字段的设计增量爬取请求去重2．中间件：爬虫防屏蔽中间件网页非200状态处理爬虫下载异常处理3．数据存储：抓取字段设计数据存储4．数据可视化二、系统分布式架构分布式采用主从结构设置一个Master服务器和多个Slave服务器，Master端管理R...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。