@概述
- 对于比较庞大的爬虫项目,可以考虑分工在多台服务器上进行分布式爬取
- master端安装redis内存数据库,实现高速写入和转存(必须要转存,否则断电或程序崩溃,则数据将不复存在)
- slave端爬虫程序运行起来后,会监听master端发送的指令并开始爬取,数据在scrapy_redis框架作用下,会源源不断地存储到master端redis数据库
- master端redis的安装以及slave端scrapy_redis的安装请参考《分布式爬虫环境配置》
- 除了环境配置以外,代码与scrapy基本是一致的
- 代码很好理解,难点主要在于环境的配置和调试
@环境的安装
- master端redis的安装请参考:http://blog.csdn.net/xiangwanpeng/article/details/54586087
- slave端安装scrapy_redis:sudo pip install scrapy_redis
@项目代码
项目代码的框架来自于scrapy_redis官方提供的示例代码: