python连接redis后需要断开连接吗 redis.redis_在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis...

最新推荐文章于 2022-04-07 11:15:51 发布

weixin_39903375

最新推荐文章于 2022-04-07 11:15:51 发布

阅读量262

点赞数

文章标签： python连接redis后需要断开连接吗 redis.redis

本文链接：https://blog.csdn.net/weixin_39903375/article/details/113669123

版权

本文介绍了如何使用Scrapy-Redis构建分布式爬虫，通过Redis作为中央请求调度器和数据存储，确保多台爬虫主机间的协调和去重。在阿里云CentOS7.6上部署Redis，并配置Scrapy项目，讨论了是否需要在Python连接Redis后手动断开连接的问题。

摘要由CSDN通过智能技术生成

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_83

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。

而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。

说白了，就是使用redis来维护一个url队列,然后scrapy爬虫都连接这一个redis获取url,且当爬虫在redis处拿走了一个url后,redis会将这个url从队列中清除,保证不会被2个爬虫拿到同一个url,即使可能2个爬虫同时请求拿到同一个url,在返回结果的时候redis还会再做一次去重处理,所以这样就能达到分布式效果,我们拿一台主机做redis 队列,然后在其他主机上运行爬虫.且scrapy-redis会一直保持与redis的连接,所以即使当redis 队列中没有了url,爬虫会定时刷新请求,一旦当队列中有新的url后,爬虫就立即开始继续爬

首先分别在主机和从机上安装需要的爬虫库

pip3 install requests

最低0.47元/天解锁文章

weixin_39903375

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python连接redis后需要断开连接吗 redis.redis_在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis...

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_83Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它...
复制链接

扫一扫