- Master端(核心服务器):使用Windows 10,搭建一个Redis数据库,不负责爬取,只负责url指纹判重,请求的分配,以及数据的存储
- Slaver端(爬虫程序执行端):使用Mac OS X,Ubuntu 18.04负责执行爬虫程序,运行过程中提交新的url
RedisSpider类不需要写allowd_domains和start_urls:
scrapy-redis的在将从构造方法__init__()里动态定义爬虫爬取域范围,也可以选择直接写allowd_domains。
必须指定redis_key,即启动爬虫的命令,参考格式:redis_key = ‘myspider:start_urls’
根据指定的格式,start_urls将在Master端的redis-cli里lpush到Redis数据库里,RedisSpider将在数据库里获取start_urls。
redis_key = ‘fang:start’