Python之分布式爬虫

最新推荐文章于 2024-08-28 18:08:33 发布

仿佛泣雪如画

最新推荐文章于 2024-08-28 18:08:33 发布

阅读量1.2k

点赞数 1

分类专栏：互联网 Python 文章标签： python 分布式爬虫概述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41646358/article/details/81660673

版权

互联网同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

19 篇文章 0 订阅

订阅专栏

什么是分布式爬虫?

通俗来讲,分布式爬虫就是多台机器多个spider对多个url的同时处理操作,分布式的方式可以极大提高程序的抓取效率

分布式爬虫一般要配合redis数据库使用,原因有3点:

(1)redis数据库可以共享队列

(2)重写Scheduler,让其无论是去重还是任务都去访问共享队列

(3)为Scheduler定制去重规则

redis数据库的安装和使用见下文

分布式爬虫的结构:

分布式爬虫一般采用主从结构(master-slaver),master端管理redis数据库和分发下载任务,slaver部署爬虫提取网页、解析提取数据和存储数据

主从结构(master-slaver)的特点:

(1)如果master出现崩溃,可以马上将其中一个slaver重新部署为master,不会造成数据的丢失

(2)无论是master或者slaver修改数据时,所有master和slaver都会立马进行数据同步

(3)slaver可以有多个,master只能有一个

redis数据库的安装和使用:

(1)安装:

下载链接:https://github.com/MicrosoftArchive/redis/releases

下载完成后是一个压缩包,尽量解压到桌面并修改文件夹名为redis,之后使用会方便一点

注意:一定要把所有文件都放在同一个文件夹下

(2)使用:

修改一些数据,用编译器打开下面这个文件,用编译器可以根据行数快速找到要修改的数据

1.注释掉第56行代码

2.修改第75行数据,将yes改为no

3.在123行添加一行代码

进入终端,输入命令,无论是配置master或slaver时们尽量都要先cd到redis文件夹中,这样可以避免一些不必要的错误

1.配置master

cd C:\Users\Administrator\Desktop\redis >>> redis-server redis.windows.conf

出现以下界面说明配置成功

注意:配置成功后就不要动了,因为现在这是一个主服务器了

2.配置slaver,并连接master

这里可以是另外一台机器,也可以依旧是本机,如果是做项目的话,推荐使用额外一台机器,这里只演示方法

cd C:\Users\Administrator\Desktop\redis >>> redis-cli -h 255.255.255.255 -p 6379

注意:-h后面写master的ip,我这里只是举例来完善写法

-p 后面写端口号,默认为6379,-p 6379 可以省略

今天就先说这么多吧,之后会继续补充

仿佛泣雪如画

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。