scrapy-Redis分布式爬虫

scrapy中的settings设置:

#使用了scrapy_redis的去重组件,在redis数据库里做去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  
#使用了scrapy_redis的调度器,在redis里分配请求    
SCHEDULER = "scrapy_redis.scheduler.Scheduler"     
 #在redis中保持scrapy-redis用到的各个队列,从而允许暂停和暂停后恢复,也就是不清理redis queues             
SCHEDULER_PERSIST = True   
#管道设置                                    
ITEM_PIPELINES = {
   "redis_scrapy.pipelines.RedisScrapyPipeline": 100,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}
#指定redis数据库的连接参数
REDIS_HOST = 'localhost'
REDIS_PORT = 6379

spider中的设置:

from scrapy_redis.spiders import RedisSpider

#要修改继承的类为RedisSpider
class RedisSpiderSpider(RedisSpider):
    name = "redis_spider"
    #Redis中key的名字
    redis_key = 'datas'

    def parse(self, response):
        #当Redis中有数据时自动获取并发起请求
        print(response.text)

Redis插入数据设置:

可以使用:LPUSH和RPUSH命令插入一个列表数据

实例:

        RPUSH  data  'aaaa'      #表示在列表data最后面插入一条数据aaaa

也可以使用循环批量插入数据:

        

import redis
r = redis.StrictRedis(host='localhost',port=6379)#连接Redis
for data_list in datas_list:
     print(data_list)
     r.lpush('datas',data_list)

总结:

1.在scrapy的settings中设置Redis相关的连接配置

2.在spider继承RedisSpider类,并设置redis_key的名字;拿到数据后是自动发起请求的,可以打印response的text文本查看数据

3.插入数据到Redis

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fly.Py

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值