scrapy转化为scrapy-redis的三种配置方式

一、对于dmoz单机版
只需要修改setting文件即可,添加以下配置
(1)无密码版本

REDIS_HOST="ip地址"
REDIS_PORT=端口号

(2)有密码版本

REDIS_URL = 'redis://:【密码】【ip】:【端口号】'

注:【】只是为了区分,使用时删除掉

二、对于分布式直接抓取版本
(1)修改对应spider的文件以下内容:

name = 'myspider_redis'   # 爬虫名称
redis_key = 'myspider:start_urls'  # redis中对应的爬取开始地址
rules=(
        Rule(LinkExtractor(".*?shtml"),callback="parse_item",follow=True),
        )   # 爬取规则

(2)setting文件的修改跟上面一样

三、对于分布式实时输入redis键列表信息并实时获取
(1)setting文件修改跟上面一致
(2)修改对应spider的文件

name = 'tianya_suming'
redis_key = 'tianya_suming:start_urls'
rules=(
        Rule(LinkExtractor(".*?shtml"),callback="parse_item",follow=True),
        )         # 爬取规则
        
def set_crawler(self,crawer):
     CrawlSpider.set_crawler(self,crawer) #设置默认爬去
     RedisMixin.setup_redis(self) #url由redis调度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值