scrapy分布式爬虫中Scrap_redis部署

最新推荐文章于 2024-08-26 10:08:21 发布

liu振华

最新推荐文章于 2024-08-26 10:08:21 发布

阅读量467

点赞数 1

文章标签： Python学习之路

本文链接：https://blog.csdn.net/qq_43295136/article/details/82973087

版权

一。1.什么是scrapy_redis?
scrapy_redis是第三方库
2.什么是分布式爬虫？
简单的理解就是一台主机电脑控制多台副机电脑，以相同的代码，爬取不同的内容。
注：在众多电脑中，选择其中一台开启redis服务，目的就是在redis中创建公用的queue和公用的set，
然后剩余电脑只需要连接redis服务即可，剩余电脑不需要开启redis-server服务。
二。安装 scrapy_redis
1.使用命令行工具下载工具包 scrapy_redis
在这里插入图片描述
2.使用pycharm,找到settings文件,配置scrapy项目使用的调度器及过滤器

3.修改spider爬虫文件

4.如果连接的有远程服务,例如MySQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够成功连接
5.配置远程连接的MySQL及redis地址
1)MySQL
设置好刷新一下
设置完成刷新一下
2)redis
在这里插入图片描述

三、将配置好的项目，拷贝到不同的机器中；
四、选择其中一台机器，开启redis-server服务
并修改redis.windows.conf配置文件，修改内容如下：

# 配置远程IP地址，供其他的电脑进行连接redis
bind: (当前电脑IP) 192.168.40.217

# 关闭redis保护模式
protected-mode: no

五、其中一台电脑启动redis-server服务
六、让所有爬虫项目都运行起来，由于没有起始的url，所有爬虫会暂时处于停滞状态
七、所有爬虫都启动之后，部署redis-server服务的电脑，通过命令redis-cli lpush jobbole:start_urls http://blog.jobbole.com/all-posts/ 向redis的queue中添加起始的url
八、所有爬虫开始运行，爬取数据，同时所有的数据都会保存到该爬虫所连接的远程数据库以及远程redis中