一、对于dmoz单机版
只需要修改setting文件即可,添加以下配置
(1)无密码版本
REDIS_HOST="ip地址"
REDIS_PORT=端口号
(2)有密码版本
REDIS_URL = 'redis://:【密码】【ip】:【端口号】'
注:【】只是为了区分,使用时删除掉
二、对于分布式直接抓取版本
(1)修改对应spider的文件以下内容:
name = 'myspider_redis' # 爬虫名称
redis_key = 'myspider:start_urls' # redis中对应的爬取开始地址
rules=(
Rule(LinkExtractor(".*?shtml"),callback="parse_item",follow=True),
) # 爬取规则
(2)setting文件的修改跟上面一样
三、对于分布式实时输入redis键列表信息并实时获取
(1)setting文件修改跟上面一致
(2)修改对应spider的文件
name = 'tianya_suming'
redis_key = 'tianya_suming:start_urls'
rules=(
Rule(LinkExtractor(".*?shtml"),callback="parse_item",follow=True),
) # 爬取规则
def set_crawler(self,crawer):
CrawlSpider.set_crawler(self,crawer) #设置默认爬去
RedisMixin.setup_redis(self) #url由redis调度