Dpider
参考网上大佬的一张分布式爬虫的架构图,对其的一个实现。因为时间比较急,所以在某些地方跟原架构图不一样(有的省去了,有的用的其他技术),但总体架构是按照这个来的。文章很棒,推荐大家看一看!
-
项目地址:
-
架构图如下:
系统分为如下几部分
根据架构图,系统分为
- URL调度系统,对应着dpider-urlScheduler模块
- 子爬虫,对应着dpider-spider模块
- 监控系统,对应着dpider-monitor模块
其中子爬虫、URL调度系统为集群,监控系统为单点监控。
以下是对这三个模块的介绍。
URL调度系统
是整个分布式爬虫系统的任务调度系统,向外暴露两个方法:poll,push。另外还具有URL去重功能,后面还可以加入增量爬取支持,在