分布式爬虫调度策略
最新推荐文章于 2022-04-11 11:33:41 发布
本文介绍了基于Redis的三种分布式爬虫策略。策略一使用scrapy-redis,Slaver从Master获取任务并生成新任务,Master负责任务去重。策略二中,Master生成任务,Slaver仅抓取数据,分工明确,减少数据交流。策略三中,Slaver遇到新任务询问Master,简单但需额外实现断点续爬。每种策略各有优缺点,适用场景不同。
摘要由CSDN通过智能技术生成