scrapy0.24文档解读之setting配置(二)

本文档详细解读了Scrapy 0.24的settings配置,包括DOWNLOAD_MAXSIZE、DUPEFILTER_CLASS、EXTENSIONS、LOGGING相关设置、内存管理、重定向策略、SPIDER_MIDDLEWARES等多个关键配置选项,帮助理解并优化Scrapy项目配置。
摘要由CSDN通过智能技术生成

上一篇写了setting的一部分设置,继续
1:DOWNLOAD_MAXSIZE#设置response大小

    设置将要下载的response最大size,如果想禁用设置为0
    #Default:1073741824 (1024MB)
    也可以在爬虫中使用download_maxsize属性设置

2:DOWNLOAD_WARNSIZE

     #警告还是预告??的大小
     ##Default: 33554432 (32Mb)
     爬虫也可以设置

3:DUPEFILTER_CLASS#设置检测过滤重复请求的类

    默认: 'scrapy.dupefilter.RFPDupeFilter'
    用于设置检测过滤重复请求的类。
    默认的 (RFPDupeFilter) 过滤器基于scrapy.utils.request.request_fingerprint 函数生成的请求fingerprint(指纹)。 如果您需要修改检测的方式,您可以继承 RFPDupeFilter 并覆盖其 request_fingerprint 方法。 该方法接收 Request 对象并返回其fingerprint(一个字符串)。

4:DUPEFILTER_DEBUG##记录重复的请求,这是执行记录的行为

    ###默认: False    
    ##默认情况下, RFPDupeFilter 只记录第一次重复的请求。 
    设置 DUPEFILTER_DEBUG 为 True 将会使其记录所有重复的requests

5:EDITOR###设置编辑器?没用感觉

    默认: depends on the environment
    ###执行 edit 命令编辑spider时使用的编辑器。 
    其默认为 EDITOR 环境变量。如果该变量未设置,其默认为 vi (Unix系统) 或者 IDLE编辑器(Windows)。

6:EXTENSIONS##扩展的是否启用以及顺序

    ###默认: {}###保存项目中启用的扩展插件及其顺序的字典。

7:EXTENSIONS_BASE##一些默认开启的扩展插件,如要关闭将对应的值变成none,但是只能在扩展字典中设置

   默认:
   {
       'scrapy.contrib.corestats.CoreStats': 0,
       'scrapy.telnet.TelnetConsole': 0,
       'scrapy.contrib.memusage.MemoryUsage': 0,
       'scrapy.contrib.memdebug.MemoryDebugger': 0,
       'scrapy.contrib.closespider.CloseSpider': 0,
       'scrapy.contrib.feedexport.FeedExporter': 0,
       'scrapy.contrib.logstats.LogStats': 0,
       'scrapy.contrib.spiderstate.SpiderState': 0,
       'scrapy.contrib.throttle.AutoThrottle': 0,
   }
   可用的插件列表。需要注意,有些插件需要通过设定来启用。默认情况下, 该设定包含所有稳定(stable)的内置插件。

8:ITEM_PIPELINES

 默认: {}
 保存项目中启用的pipeline及其顺序的字典。该字典默认
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值