什么是分布式爬虫?
通俗来讲,分布式爬虫就是多台机器多个spider对多个url的同时处理操作,分布式的方式可以极大提高程序的抓取效率
分布式爬虫一般要配合redis数据库使用,原因有3点:
(1)redis数据库可以共享队列
(2)重写Scheduler,让其无论是去重还是任务都去访问共享队列
(3)为Scheduler定制去重规则
redis数据库的安装和使用见下文
分布式爬虫的结构:
分布式爬虫一般采用主从结构(master-slaver),master端管理redis数据库和分发下载任务,slaver部署爬虫提取网页、解析提取数据和存储数据
主从结构(master-slaver)的特点:
(1)如果master出现崩溃,可以马上将其中一个slaver重新部署为master,不会造成数据的丢失
(2)无论是master或者slaver修改数据时,所有master和slaver都会立马进行数据同步
(3)slaver可以有多个,master只能有一个
redis数据库的安装和使用:
(1)安装:
下载链接:https://github.com/MicrosoftArchive/redis/releases
下载完成后是一个压缩包,尽量解压到桌面并修改文件夹名为redis,之后使用会方便一点
注意:一定要把所有文件都放在同一个文件夹下
(2)使用:
修改一些数据,用编译器打开下面这个文件,用编译器可以根据行数快速找到要修改的数据
1.注释掉第56行代码
2.修改第75行数据,将yes改为no
3.在123行添加一行代码
进入终端,输入命令,无论是配置master或slaver时们尽量都要先cd到redis文件夹中,这样可以避免一些不必要的错误
1.配置master
cd C:\Users\Administrator\Desktop\redis >>> redis-server redis.windows.conf
出现以下界面说明配置成功
注意:配置成功后就不要动了,因为现在这是一个主服务器了
2.配置slaver,并连接master
这里可以是另外一台机器,也可以依旧是本机,如果是做项目的话,推荐使用额外一台机器,这里只演示方法
cd C:\Users\Administrator\Desktop\redis >>> redis-cli -h 255.255.255.255 -p 6379
注意:-h后面写master的ip,我这里只是举例来完善写法
-p 后面写端口号,默认为6379,-p 6379 可以省略
今天就先说这么多吧,之后会继续补充