scrapy0.24文档解读之setting配置（二）

最新推荐文章于 2020-12-11 03:39:17 发布

风云路上想改名

最新推荐文章于 2020-12-11 03:39:17 发布

阅读量720

点赞数

分类专栏：笔记文章标签： scrapy setting python more

本文链接：https://blog.csdn.net/wc199422/article/details/82534568

版权

本文档详细解读了Scrapy 0.24的settings配置，包括DOWNLOAD_MAXSIZE、DUPEFILTER_CLASS、EXTENSIONS、LOGGING相关设置、内存管理、重定向策略、SPIDER_MIDDLEWARES等多个关键配置选项，帮助理解并优化Scrapy项目配置。

摘要由CSDN通过智能技术生成

上一篇写了setting的一部分设置，继续
1：DOWNLOAD_MAXSIZE#设置response大小

    设置将要下载的response最大size，如果想禁用设置为0
    #Default:1073741824 (1024MB)
    也可以在爬虫中使用download_maxsize属性设置

2：DOWNLOAD_WARNSIZE

     #警告还是预告？？的大小
     ##Default: 33554432 (32Mb)
     爬虫也可以设置

3：DUPEFILTER_CLASS#设置检测过滤重复请求的类

    默认: 'scrapy.dupefilter.RFPDupeFilter'
    用于设置检测过滤重复请求的类。
    默认的 (RFPDupeFilter) 过滤器基于scrapy.utils.request.request_fingerprint 函数生成的请求fingerprint(指纹)。 如果您需要修改检测的方式，您可以继承 RFPDupeFilter 并覆盖其 request_fingerprint 方法。 该方法接收 Request 对象并返回其fingerprint(一个字符串)。

4：DUPEFILTER_DEBUG##记录重复的请求，这是执行记录的行为

    ###默认: False    
    ##默认情况下， RFPDupeFilter 只记录第一次重复的请求。 
    设置 DUPEFILTER_DEBUG 为 True 将会使其记录所有重复的requests

5：EDITOR###设置编辑器？没用感觉

    默认: depends on the environment
    ###执行 edit 命令编辑spider时使用的编辑器。 
    其默认为 EDITOR 环境变量。如果该变量未设置，其默认为 vi (Unix系统) 或者 IDLE编辑器(Windows)。

6：EXTENSIONS##扩展的是否启用以及顺序

    ###默认: {}###保存项目中启用的扩展插件及其顺序的字典。

7：EXTENSIONS_BASE##一些默认开启的扩展插件，如要关闭将对应的值变成none，但是只能在扩展字典中设置

   默认:
   {
       'scrapy.contrib.corestats.CoreStats': 0,
       'scrapy.telnet.TelnetConsole': 0,
       'scrapy.contrib.memusage.MemoryUsage': 0,
       'scrapy.contrib.memdebug.MemoryDebugger': 0,
       'scrapy.contrib.closespider.CloseSpider': 0,
       'scrapy.contrib.feedexport.FeedExporter': 0,
       'scrapy.contrib.logstats.LogStats': 0,
       'scrapy.contrib.spiderstate.SpiderState': 0,
       'scrapy.contrib.throttle.AutoThrottle': 0,
   }
   可用的插件列表。需要注意，有些插件需要通过设定来启用。默认情况下， 该设定包含所有稳定(stable)的内置插件。

8：ITEM_PIPELINES

 默认: {}
 保存项目中启用的pipeline及其顺序的字典。该字典默认

最低0.47元/天解锁文章

风云路上想改名

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录