分布式爬虫

最新推荐文章于 2021-10-14 14:32:55 发布

蔚来不是梦

最新推荐文章于 2021-10-14 14:32:55 发布

阅读量4.4k

点赞数 1

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42543312/article/details/81635772

版权

分布式爬虫通过scrapy_redis实现多台电脑协同工作，提高爬取速度。它需要每台计算机能执行scrapy命令，并共享同一队列和set集合。文章介绍了Redis的基本特性和优势，强调了Redis在主从配置中的作用，以及如何配置Redis主从以减轻单台Redis服务器的压力。还详细讲解了Redis的安装、环境变量配置和连接远程Redis服务。

摘要由CSDN通过智能技术生成

什么是分布式爬虫？

1.默认情况下，scrapy爬虫是单机爬虫，只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都是本机上创建的其他的电脑无法访问另外一台电脑上的内存的内容。

2.分布式爬虫用一个共同的爬虫程序，同时部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式爬虫。

分布式爬虫的前提

1.要保证每一台计算机都能够正常的执行scrapy命令，能够启动爬虫。

2.要保证所有的爬虫程序可以访问同一个队列一个set集合。

想要保证多台机器共用一个queue队列和set集合，scrapy中是结合scrapy_redis完成的，分布式爬虫可以让所有机器上的爬虫程序从同一个queue队列中获取request请求，并且每个机器取出request请求的对象是不一样的，直到所有的request被请求完毕。

分布式爬虫的使用范围/要求

1.分布式爬虫对电脑的性能有一定的要求。

2.分布式对网速也有一定的要求，电脑性能和网速如果不是很好的话，爬虫效率不如单机爬虫注意：并不是任何时候都可以使用分布式爬虫，因为对硬件有较高的要求。

分布式爬虫经常和redis数据库一起使用。

redis简介

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。

Redis 与其他 key - value 缓存产品有以下三个特点：

Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等

最低0.47元/天解锁文章

蔚来不是梦

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

蔚来不是梦 CSDN认证博客专家 CSDN认证企业博客

码龄6年

23: 原创

106万+: 周排名

212万+: 总排名

15万+: 访问

: 等级

1145: 积分

17: 粉丝

45: 获赞

15: 评论

286: 收藏

私信

关注

热门文章

分类专栏

Python 22篇
JavaScript 1篇

最新评论

node.js详细安装教程及使用
变量提升: 基本一样，在代码编辑器用，一、是比较方便二、两者可以很好的配合使用三、有的代码如果在代码编辑器运行不出来就可以在在CMD运行。在React会遇到这样的问题，解决办法就是在cmd打开就可以
Win10安装MySQL详细教程
@先秃为敬: 不用初始化吗？
Win10安装MySQL详细教程
weixin_45047360: 链接下载不了了
Win10安装MySQL详细教程
疯小子9527: 瞎鸡儿乱写,选择第一个安装会安装一大堆乱七八糟的,正确的是选自定义安装
Win10安装MySQL详细教程
m0_47561810: 不需要用到那个cmd吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。