python虚拟机分布式爬虫_利用虚拟机练手Scrapy分布式爬虫!

本文介绍了如何利用Python虚拟机和Scrapy-Redis搭建分布式爬虫。通过讲解分布式爬虫的基本原理,详细阐述了环境配置,包括Windows和Linux下安装Redis,以及Windows访问虚拟机Redis的设置。接着,展示了在Scrapy设置中配置Scrapy-Redis调度器以实现分布式,并给出了代码运行及效果,成功抓取了百度贴吧聊天吧的帖子数据。
摘要由CSDN通过智能技术生成

作者:石晓文 Python爱好者社区专栏作者

个人公众号:小小挖掘机

博客专栏:wenwen

前几天在公司电脑上装了几台服务器,好多想尝试的东西,今天,参照崔庆才老师的爬虫实战课程,实践了一下分布式爬虫,并没有之前想象的那么神秘,其实非常的简单,相信你看过这篇文章后,不出一小时,便可以动手完成一个分布式爬虫!

1、分布式爬虫原理

首先我们来看一下scrapy的单机架构:

可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页面的爬取。

那么多台主机协作的关键是共享一个爬取队列。

所以,单主机的爬虫架构如下图所示:

前文提到,分布式爬虫的关键是共享一个requests队列,维护该队列的主机称为master,而从机则负责数据的抓取,数据处理和数据存储,所以分布式爬虫架构如下图所示:

那么队列用什么维护呢,这里我们选用Redis队列进行存储,

Redis是一种高效的非关系型数据库,以key-value的形式存储,结构灵活,它是内存中的数据结构存储系统,处理速度快,性能好,同时,提供了队列&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值