Python 分布式爬虫

最新推荐文章于 2024-08-28 18:08:33 发布

青衫折扇

最新推荐文章于 2024-08-28 18:08:33 发布

阅读量270

点赞数

分类专栏： Python python基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42543264/article/details/81660912

版权

Python 同时被 2 个专栏收录

79 篇文章 1 订阅

订阅专栏

39 篇文章 7 订阅

订阅专栏

什么是分布式爬虫?

1.在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的,其他的电脑无法访问另一台电脑上内存的内容

2.分布式爬虫用一个共同的爬虫程序,同时部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫

分布式爬虫的前提:

1.要保证每一台计算机都能够正常的执行scrapy命令,能够启动爬虫程序

2.要保证所有的爬虫程序可以访问同一个队列和一个set集合

scrapy_redis:引擎系统

想要保证多台机器共用一个queue列队和set集合,scrapy中是结合scrapy_redis完成的,分布式爬虫可以让所有机器上的爬虫程序,

从同一个queue队列中获取request请求,并且每个机器取出request请求的对象是不一样的,直到所有request被请求完毕

分布式爬虫的使用范围/要求:

1.分布式爬虫对电脑的性能有一定的要去

2.分布式爬虫对网速也有一定的要求,电脑性能和网速如果不是很好,爬虫效率还不如单机爬虫

注意:并不是任何时候都可以使用分布式爬虫,因为对硬件有要求,对公司的需求,要有一定的条件

分布式爬虫经常和redis数据库一起使用

redis数据的特点:

优点:

默认使用持久化数据方式

体积小,使用方便

如果存储数据量较大,启动速度很快

数据中的数据和内存中的数据可以互相访问

缺点:

从安全角度来说,持久化数据可能很容易崩溃,造成数据丢失

要实现分布式爬虫,首先要配置服务器主从:
配置主从的目的:
1.达到备份的功能,一旦master出现崩溃,而数据库中还有数据,可以将其中的一个slave重新设置为主服务器,从而恢复redis的正常运行

2.一个redis服务器负责读写,性能较低,通过主从来减轻一个redis的压力

redis主从的配置:

redis作为缓存服务器,主要是将数据在内存中进行缓存,但是一台机器的内存和性能是有限的

当对于redis部署到多态机器上,用于写入数据的redis,称之为master

redis主从的特点:

1.master值负责写入数据,slave只负责读取数据

2.当slave创建的时候,对象master发送一个同步的命令,master接受到命令以后将数据同步到slave

3.master只能有一个,slave可以有多个

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。