scrapy分布式爬虫是为了更快速的爬取更多的数据,将爬虫项目分部到多个主机上同时爬取数据。以下是基于scrapy_redis部署scrapy分布式。
1.首先打开命令行工具,在你的环境下下载scrapy_redis包,如果有虚拟环境,先进入虚拟环境再下载,在命令行中输入:pip install scrapy_redis。
2.下载过scrapy_redis包后,用pycharm打开我们的爬虫项目,找到settings文件,在里面配置scrapy项目使用的调度器和过滤器
。以下是配置图示:
3.在settings配置过之后,打开我们的spider爬虫文件,修改以下部分:
(1)引入scrapy_redis中的爬虫类,修改爬虫类继承的父类为RedisSpider
(2)将start_urls注释掉,写入redis_key = '爬虫项目名:star_urls