分布式爬虫(Zookeeper+Redis+Spring+WebMgic+Dubbo)

Dpider

参考网上大佬的一张分布式爬虫的架构图,对其的一个实现。因为时间比较急,所以在某些地方跟原架构图不一样(有的省去了,有的用的其他技术),但总体架构是按照这个来的。文章很棒,推荐大家看一看!

系统分为如下几部分

根据架构图,系统分为

  • URL调度系统,对应着dpider-urlScheduler模块
  • 子爬虫,对应着dpider-spider模块
  • 监控系统,对应着dpider-monitor模块

其中子爬虫、URL调度系统为集群,监控系统为单点监控。

以下是对这三个模块的介绍。

URL调度系统

是整个分布式爬虫系统的任务调度系统,向外暴露两个方法:poll,push。另外还具有URL去重功能,后面还可以加入增量爬取支持,在

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值