Python 分布式爬虫

最新推荐文章于 2024-04-27 08:44:56 发布

疯子～

最新推荐文章于 2024-04-27 08:44:56 发布

阅读量351

点赞数

文章标签： pytnon 分布式爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42660771/article/details/81637848

版权

本文介绍了Python分布式爬虫的概念，强调了其通过多台电脑协同工作以提高爬取速度的优势。分布式爬虫需要确保每台计算机能运行Scrapy并访问共享队列和集合。文中特别提到了Scrapy.Redis在实现这一目标中的作用。此外，文章还讨论了分布式爬虫的适用场景，指出对硬件性能和网络速度有一定要求，并且常与Redis数据库配合使用。在Redis部分，讨论了其持久化数据、快速启动和主从配置等特性，以及配置主从服务器的目的和特点。

摘要由CSDN通过智能技术生成

1.什么是分布式爬虫

①.默认情况下，scrapy爬虫是单机爬虫，只能在一台电脑上运行因为爬虫调度器当中的队列queue 去重和set集合都是在本机上创建的其他的电脑无法访问另一台电脑上的内存的内容

②.分布式爬虫用一个共同的爬虫程序，同时部署到多台电脑上运行。这样可以提高爬虫速度，实现分布式爬虫

2.分布式爬虫的前提：

①.要保证每一台计算机都能正常的执行scrapy命令，能够启动爬虫

②.要保证所有的爬虫程序可以访问同一个队列一个set集合

scrapy_redis

想要保证多台机器共用一个queue队列和set集合，scrapy中是结合scrapy_redis完成的分布式爬虫可以让所有机器上的爬虫程序，从同一个queue队列中获取request请求，并且每个机器取出request请求的对象是不一样的，直到所有的request被请求完毕

3.分布式爬虫的适用范围/要求：

1.分布式爬虫对电脑的性能有一定的要求

2.分布式爬虫对网速也有一定的要求，电脑性能和网速不是很好的话，爬虫效率不如单机爬虫

注意：并不是任何时候都可以使用分布式爬虫，因为对硬件有要求，小公司可能负担不起

分布式爬虫经常和redis 数据库一起使用

4.redis数据的特点

优点：
—— 默认使用持久化数据方式，体积小，使用方便
—— 如果存储数据量比较大的话，启动速度很快
—— 数据库中的数据和内存的数据可以相互访问
缺点：
从安全性的角度来说，持久化可能会崩溃，造成数据丢失

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。