scrapy分布式爬虫中Scrap_redis部署

一。1.什么是scrapy_redis?
scrapy_redis是第三方库
2.什么是 分布式爬虫?
简单的理解就是一台主机电脑控制多台副机电脑,以相同的代码,爬取不同的内容。
注:在众多电脑中,选择其中一台开启redis服务,目的就是在redis中创建公用的queue和公用的set,
然后剩余电脑只需要连接redis服务即可,剩余电脑不需要开启redis-server服务。
二。安装 scrapy_redis
1.使用命令行工具下载工具包 scrapy_redis
在这里插入图片描述
2.使用pycharm,找到settings文件,配置scrapy项目使用的调度器及过滤器
在这里插入图片描述
在这里插入图片描述
3.修改spider爬虫文件
在这里插入图片描述
4.如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接
5.配置远程连接的MySQL及redis地址
1)MySQL
设置好刷新一下
设置完成刷新一下
2)redis
在这里插入图片描述

三、将配置好的项目,拷贝到不同的机器中;
四、选择其中一台机器,开启redis-server服务
并修改redis.windows.conf配置文件,修改内容如下:

# 配置远程IP地址,供其他的电脑进行连接redis
bind: (当前电脑IP) 192.168.40.217

# 关闭redis保护模式
protected-mode: no

五、其中一台电脑启动redis-server服务
六、让所有爬虫项目都运行起来,由于没有起始的url,所有爬虫会暂时处于停滞状态
七、所有爬虫都启动之后,部署redis-server服务的电脑,通过命令redis-cli lpush jobbole:start_urls http://blog.jobbole.com/all-posts/ 向redis的queue中添加起始的url
八、所有爬虫开始运行,爬取数据,同时所有的数据都会保存到该爬虫所连接的远程数据库以及远程redis中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值