分布式爬虫

分布式爬虫通过scrapy_redis实现多台电脑协同工作,提高爬取速度。它需要每台计算机能执行scrapy命令,并共享同一队列和set集合。文章介绍了Redis的基本特性和优势,强调了Redis在主从配置中的作用,以及如何配置Redis主从以减轻单台Redis服务器的压力。还详细讲解了Redis的安装、环境变量配置和连接远程Redis服务。
摘要由CSDN通过智能技术生成

什么是分布式爬虫?

1.默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都是本机上创建的 其他的电脑无法访问另外一台电脑上的内存的内容。

2.分布式爬虫用一个共同的爬虫程序,同时部署到多台电脑上运行,这样可以 提高爬虫速度,实现分布式爬虫。

分布式爬虫的前提

1.要保证每一台计算机都能够正常的执行scrapy命令,能够启动爬虫。

2.要保证所有的爬虫程序可以访问同一个队列一个set集合。

想要保证多台机器共用一个queue队列和set集合,scrapy中是结合scrapy_redis完成的,分布式爬虫可以让所有机器上的爬虫程序从同一个queue队列中获取request请求, 并且每个机器取出request请求的对象是不一样的,直到所有的request被请求完毕。

分布式爬虫的使用范围/要求

1.分布式爬虫对电脑的性能有一定的要求。

2.分布式对网速也有一定的要求, 电脑性能和网速如果不是很好的话,爬虫效率不如单机爬虫 注意:并不是任何时候都可以使用分布式爬虫,因为对硬件有较高的要求。

分布式爬虫经常和redis数据库一起使用。

redis简介

Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。

Redis 与其他 key - value 缓存产品有以下三个特点:

  • Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。
  • Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值