分布式爬虫架构设计

最新推荐文章于 2024-08-07 20:45:24 发布

mtchy

最新推荐文章于 2024-08-07 20:45:24 发布

阅读量2.7k

点赞数

分类专栏： kafka 爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mtchy/article/details/74912634

版权

kafka 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

分布式爬虫架构设计

最近又和爬虫干上了，有3000万个搜索关键词，1个关键词搜索结果有多个，每个结果对应一个ID，每个ID的对应的目标页面由多个请求接口返回的json组合而成。

1.在架构上使用kafka分发搜索关键词，利用了kafka同一消费组只消费一次的特性。

2.利用redis进行id去重。

3.在扩展性上利用kafka的consumer balance，实现爬虫进程的可以随时增加减少（当然进程数不应大于对应topic的partition数）。

注意：partition数过大可能会引起kafka的gc，这是因为kafka会为每个作为follower的replica开辟一个空间默认为1M。

架构如图所示：
这里写图片描述

在实施时创建了1000个partition，也就是可以开1000个爬虫进程，每个进程20个线程，最大并发量有20000。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。