一。1.什么是scrapy_redis?
scrapy_redis是第三方库
2.什么是 分布式爬虫?
简单的理解就是一台主机电脑控制多台副机电脑,以相同的代码,爬取不同的内容。
注:在众多电脑中,选择其中一台开启redis服务,目的就是在redis中创建公用的queue和公用的set,
然后剩余电脑只需要连接redis服务即可,剩余电脑不需要开启redis-server服务。
二。安装 scrapy_redis
1.使用命令行工具下载工具包 scrapy_redis
2.使用pycharm,找到settings文件,配置scrapy项目使用的调度器及过滤器
3.修改spider爬虫文件
4.如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接
5.配置远程连接的MySQL及redis地址
1)MySQL
设置完成刷新一下
2)redis
三、将配置好的项目,拷贝到不同的机器中;
四、选择其中一台机器,开启redis-server服务
并修改redis.windows.conf配置文件,修改内容如下:
# 配置远程IP地址,供其他的电脑进行连接redis
bind: (当前电脑IP) 192.168.40.217
# 关闭redis保护模式
protected-mode: no
五、其中一台电脑启动redis-server服务
六、让所有爬虫项目都运行起来,由于没有起始的url,所有爬虫会暂时处于停滞状态
七、所有爬虫都启动之后,部署redis-server服务的电脑,通过命令redis-cli lpush jobbole:start_urls http://blog.jobbole.com/all-posts/ 向redis的queue中添加起始的url
八、所有爬虫开始运行,爬取数据,同时所有的数据都会保存到该爬虫所连接的远程数据库以及远程redis中