Scrapy配置文件Settings的使用解读

留不住的人

于 2024-03-03 14:41:40 发布

阅读量928

点赞数 21

分类专栏： Python爬虫开发文章标签： scrapy

本文链接：https://blog.csdn.net/manba_yqq/article/details/136431595

版权

Python爬虫开发专栏收录该内容

41 篇文章 0 订阅

订阅专栏

Scrapy_配置文件Settings的使用

Scrapy允许自定义设置所有Scrapy组件的行为，包括核心、扩展、管道和spider本身。

官网-参考配置

设置 — Scrapy 2.5.0 文档 (osgeo.cn)设置 — Scrapy 2.5.0 文档

1 配置文档

BOT_NAME

默认: ‘scrapybot’

Scrapy项目实现的bot的名字。用来构造默认 User-Agent，同时也用来log。当你使用 startproject 命令创建项目时其也被自动赋值。
CONCURRENT_ITEMS

默认: 100

Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值
CONCURRENT_REQUESTS

默认: 16

Scrapy downloader 并发请求(concurrent requests)的最大值。
CONCURRENT_REQUESTS_PER_DOMAIN

默认: 8

对单个网站进行并发请求的最大值。
CONCURRENT_REQUESTS_PER_IP

默认: 0

对单个IP进行并发请求的最大值。如果非0，则忽略 CONCURRENT_REQUESTS_PER_DOMAIN 设定，使用该设定。也就是说，并发限制将针对IP，而不是网站。

该设定也影响 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0，下载延迟应用在IP而不是网站上。
FEED_EXPORT_ENCODING =‘utf-8’

设置导出时文件的编码

DEFAULT_REQUEST_HEADERS

默认:

{
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

Scrapy HTTP Request使用的默认header。由 DefaultHeadersMiddleware 产生。

DOWNLOADER_MIDDLEWARES

默认:: {}

保存项目中启用的下载中间件及其顺序的字典
DOWNLOAD_DELAY

默认: 0

下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数
DOWNLOAD_TIMEOUT

默认: 180

下载器超时时间(单位: 秒)
ITEM_PIPELINES

默认: {}

保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值(value)任意。不过值(value)习惯设定在0-1000范围内
DEPTH_LIMIT

默认：0

类：scrapy.spidermiddlewares.depth.DepthMiddleware

允许为任何站点爬行的最大深度。如果为零，则不会施加任何限制。
LOG_ENABLED

默认: True

是否启用logging
LOG_ENCODING

默认: ‘utf-8’

logging使用的编码。
LOG_FILE

默认: None

logging输出的文件名。如果为None，则使用标准错误输出(standard error)。
LOG_FORMAT

默认: ‘%(asctime)s [%(name)s] %(levelname)s: %(message)s’

日志的数据格式
LOG_DATEFORMAT

默认: ‘%Y-%m-%d %H:%M:%S’

日志的日期格式
LOG_LEVEL

默认: ‘DEBUG’

log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG
LOG_STDOUT

默认: False

如果为 True ，进程所有的标准输出(及错误)将会被重定向到log中
ROBOTSTXT_OBEY

默认: True

是否遵循robots协议
USER_AGENT

默认: “Scrapy/VERSION (+http://scrapy.org)”

爬取的默认User-Agent，除非被覆盖

2 Scrapy默认BASE设置

scrapy对某些内部组件进行了默认设置，这些组件通常情况下是不能被修改的，但是我们在自定义了某些组件以后，比如我们设置了自定义的middleware中间件，需要按照一定的顺序把他添加到组件之中，这个时候需要参考scrapy的默认设置，因为这个顺序会影响scrapy的执行，下面列出了scrapy的默认基础设置

注意

如果想要修改以下的某些设置，应该避免直接修改下列内容，而是修改其对应的自定义内容

{
  'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
  'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
  'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
  'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400,
  'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
  'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550,
  'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
  'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
  'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
  'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
  'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
  'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830,
  'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
  'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}