scrapy_redis settings配置

最新推荐文章于 2022-06-23 14:44:44 发布

weixin_30512785

最新推荐文章于 2022-06-23 14:44:44 发布

阅读量132

点赞数

文章标签：数据库 python 爬虫

原文链接：http://www.cnblogs.com/542684416-qq/p/11307102.html

版权

DOWNLOAD_DELAY = 5
# The download delay setting will honor only one of:

# 指定使用scrapy-redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 指定使用scrapy-redis的去重
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# 指定排序爬取地址时使用的队列，
# 默认的 按优先级排序(Scrapy默认)，由sorted set实现的一种非FIFO、LIFO方式。
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
# 可选的 按先进先出排序（FIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue'
# 可选的 按后进先出排序（LIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderStack'
# 在redis中保持scrapy-redis用到的各个队列，从而允许暂停和暂停后恢复，也就是不清理redis queues
SCHEDULER_PERSIST = True
# 只在使用SpiderQueue或者SpiderStack是有效的参数，指定爬虫关闭的最大间隔时间
# SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 通过配置RedisPipeline将item写入key为 spider.name : items 的redis的list中，供后面的分布式处理item
# 这个已经由 scrapy-redis 实现，不需要我们写代码
ITEM_PIPELINES = {
    #'distribute_country_tecah.pipelines.DistributeCountryPipeline':300,
    'scrapy_redis.pipelines.RedisPipeline': 400
}

# 指定redis数据库的连接参数
# REDIS_PASS是我自己加上的redis连接密码（默认不做）
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
#REDIS_PASS = 'redisP@ssw0rd'

# LOG等级
LOG_LEVEL = 'DEBUG'

#默认情况下,RFPDupeFilter只记录第一个重复请求。将DUPEFILTER_DEBUG设置为True会记录所有重复的请求。
DUPEFILTER_DEBUG =True

转载于:https://www.cnblogs.com/542684416-qq/p/11307102.html

weixin_30512785

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy_redis settings配置

DOWNLOAD_DELAY = 5# The download delay setting will honor only one of:# 指定使用scrapy-redis的调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 指定使用scrapy-redis的去重DUPEFILTER_CLASS = '...
复制链接

扫一扫