基于redis的分布式爬虫实现方案

最新推荐文章于 2023-05-24 18:03:47 发布

VIP文章 zyy2404

最新推荐文章于 2023-05-24 18:03:47 发布

阅读量984

点赞数

分类专栏： python 文章标签： python 爬虫 redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36213061/article/details/89446447

版权

流程图

在这里插入图片描述

实现概念

基于 redis 良好的特性
爬虫脚本的 模板化
爬虫脚本监听 redis，实现爬虫自动化

该方案的优点

爬虫脚本模板化，复用性高
按自定义任务进行爬取，且可以控制任务粒度
爬虫脚本自动监听 redis，爬虫自动加入任务执行，不需要人为修改
如果有 redis 可视化页面，添加任务信息会很便利

了解相关概念

为什么选择 redis

简单的说，因为它的两个特性，快和 单线程，由于 redis 的数据保存在内存中，获取数据所需的时间会很少，基本上是 个位数的毫秒级别，正因为它很快，所以它有资本使用 单线程，简单地说，就是多台服务器同时去 redis 里面拿数据，他们是需要排队的，如下如，命令1 没有执行完成，redis 是不会执行命令2的

在这里插入图片描述

再借助 redis 的列表数据结构（可以当做栈或队列使用），就可以实现服务器之间不会出现竞争任务的情况，每一个服务器只会领走一个任务，我们还可以通过对列表的不同操作，改变任务执行策略，是先执行新添加的任务，还是耽搁最久的任务，以下就是列表，使用 push 从列表添加数据(任务),使用 pop 从列表中取出数据

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
基于redis的分布式爬虫实现方案

流程图实现概念基于 redis 良好的特性爬虫脚本的模板化爬虫脚本监听 redis，实现爬虫自动化该方案的优点爬虫脚本模板化，复用性高按自定义任务进行爬取，且可以控制任务粒度爬虫脚本自动监听 redis，爬虫自动加入任务执行，不需要人为修改如果有 redis 可视化页面，添加任务信息会很便利了解相关概念为什么选择 redis简单的说，因为它的两个特性，快 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。