Scrapy_redis分布式部署爬虫
对于接触完过scrapy框架的同学,下一步就是部署分布式爬虫,让爬取的速率大大提高。既然要用Scrapy_redis部署爬虫,那就要安装scrapy_redis第三方库。下面就是开始教程。
一.使用安装命令 pip install scrapy_redis
二.既然是分布式部署,scrapy项目里的相关文件就要进行配置,例子如下:
1…使用pycharm打开项目,找到settings文件,配置scrapy项目使用的调度器及过滤器
2.修改爬虫文件
3.配置mysql,配置远程连接的MySQL及redis地址
这里注意,当配置完连接redis地址后,所有配置完成后,运行爬虫后,出现计算机积极拒绝的情况时,修改代码如下: