scrapy settings

最新推荐文章于 2020-11-21 12:27:29 发布

一燊芊芊

最新推荐文章于 2020-11-21 12:27:29 发布

阅读量188

点赞数

分类专栏： scrapy

scrapy 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

此内容仅为原网页的中文翻译版本

原网页：https://doc.scrapy.org/en/latest/topics/settings.html

设置
Scrapy设置允许您自定义所有Scrapy组件的行为，包括核心，扩展，管道和crawler本身。

设置的基础结构提供了键值映射的全局命名空间，代码可以使用它来从中提取配置值。可以通过不同的机制填充设置，如下所述。

这些设置也是选择当前活动的Scrapy项目的机制（如果您有很多）。

有关可用内置设置的列表，请参阅：内置设置参考。

指定设置
当您使用Scrapy时，您必须告诉它您正在使用哪些设置。您可以使用环境变量来完成此操作SCRAPY_SETTINGS_MODULE。

值SCRAPY_SETTINGS_MODULE应该是Python路径语法，例如 myproject.settings。请注意，设置模块应位于Python 导入搜索路径中。

设置
可以使用不同的机制填充设置，每个机制具有不同的优先级。以下是按优先顺序递减的列表：

命令行选项（最优先）
每crawler的设置
项目设置模块
每个命令的默认设置
默认全局设置（优先级较低）
这些设置源的数量由内部处理，但可以使用API调用进行手动处理。请参阅 Settings API主题以供参考。

下面更详细地描述这些机制。

1.命令行选项
命令行提供的参数是最优先的参数，覆盖任何其他选项。您可以使用-s（或–set）命令行选项显式覆盖一个（或多个）设置。

例：

scrapy crawl myspider -s LOG_FILE=scrapy.log
2.每crawler的设置
crawler（参见Spiders章节以供参考）可以定义自己的设置，这些设置优先并覆盖项目设置。他们可以通过设置custom_settings属性来实现：

class MySpider(scrapy.Spider):
name = ‘myspider’

custom_settings = {
    'SOME_SETTING': 'some value',
}

3.项目设置模块
项目设置模块是Scrapy项目的标准配置文件，它将填充大多数自定义设置。对于标准Scrapy项目，这意味着您将添加或更改settings.py为项目创建的文件中的设置。

4.每个命令的默认设置
每个Scrapy工具命令都可以有自己的默认设置，这些设置会覆盖全局默认设置。这些自定义命令设置default_settings在命令类的属性中指定。

5.默认全局设置
全局默认值位于scrapy.settings.default_settings 模块中，并记录在内置设置参考部分中。

如何访问设置
在crawler中，设置可通过self.settings以下方式获得：

class MySpider(scrapy.Spider):
name = ‘myspider’
start_urls = [‘http://example.com’]

def parse(self, response):
    print("Existing settings: %s" % self.settings.attributes.keys())

注意

settings初始化spider后，在Spider类中设置该属性。如果要在初始化之前使用这些设置（例如，在spider的__init__()方法中），则需要覆盖该 from_crawler()方法。

可以通过scrapy.crawler.Crawler.settings Crawler 的属性访问设置，该属性传递给from_crawler扩展，中间件和项目管道中的方法：

class MyExtension(object):
def init(self, log_is_enabled=False):
if log_is_enabled:
print(“log is enabled!”)

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls(settings.getbool('LOG_ENABLED'))

设置对象可以像dict一样使用（例如 settings[‘LOG_ENABLED’]），但通常首选使用SettingsAPI 提供的方法之一以您需要的格式提取设置以避免类型错误。

设置名称的原理
设置名称通常以它们配置的组件为前缀。例如，对于一个虚构的robots.txt扩展正确的设置名称会 ROBOTSTXT_ENABLED，ROBOTSTXT_OBEY，ROBOTSTXT_CACHEDIR，等。

内置设置参考
以下是所有可用Scrapy设置的列表，按字母顺序排列，以及它们的默认值和适用范围。

范围（如果可用）显示设置的使用位置，如果它与任何特定组件相关联。在那种情况下，将显示该组件的模块，通常是扩展，中间件或管道。它还意味着必须启用该组件才能使设置产生任何效果。

AWS_ACCESS_KEY_ID
默认： None

需要访问Amazon Web服务的代码使用的AWS访问密钥，例如S3 Feed存储后端。

AWS_SECRET_ACCESS_KEY
默认： None

需要访问Amazon Web服务的代码使用的AWS密钥，例如S3 Feed存储后端。

AWS_ENDPOINT_URL
默认： None

用于类似S3的存储的端点URL，例如Minio或s3.scality。仅支持botocore库。

AWS_USE_SSL
默认： None

如果要禁用SSL连接以与S3或类似S3的存储进行通信，请使用此选项。默认情况下，将使用SSL。仅支持botocore库。

AWS_VERIFY
默认： None

验证Scrapy与S3或类似S3的存储之间的SSL连接。默认情况下，将进行SSL验证。仅支持botocore库。

AWS_REGION_NAME
默认： None

与AWS客户端关联的区域的名称。仅支持botocore库。

BOT_NAME
默认： ‘scrapybot’

此Scrapy项目实现的机器人名称（也称为项目名称）。这将默认用于构建User-Agent，也用于日志记录。

使用该startproject命令创建项目时，它会自动填充项目名称。

CONCURRENT_ITEMS
默认： 100

在项目处理器（也称为项目管道）中并行处理的最大并发项数（每个响应）。

CONCURRENT_REQUESTS
默认： 16

Scrapy下载程序将执行的最大并发（即同时）请求数。

CONCURRENT_REQUESTS_PER_DOMAIN
默认： 8

将对任何单个域执行的最大并发（即同时）请求数。

另请参阅：AutoThrottle扩展及其 AUTOTHROTTLE_TARGET_CONCURRENCY选项。

CONCURRENT_REQUESTS_PER_IP
默认： 0

将对任何单个IP执行的最大并发（即同时）请求数。如果非零，CONCURRENT_REQUESTS_PER_DOMAIN则忽略该设置，而使用此设置。换句话说，并发限制将应用于每个IP，而不是每个域。

此设置还会影响DOWNLOAD_DELAY和 AutoThrottle扩展：如果CONCURRENT_REQUESTS_PER_IP 非零，则按 IP而不是每个域强制执行下载延迟。

DEFAULT_ITEM_CLASS
默认： ‘scrapy.item.Item’

将用于实例化Scrapy shell中的项的默认类。

DEFAULT_REQUEST_HEADERS
默认：

{
‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,
‘Accept-Language’: ‘en’,
}
用于Scrapy HTTP请求的默认标头。他们居住在 DefaultHeadersMiddleware。

DEPTH_LIMIT
默认： 0

范围： scrapy.spidermiddlewares.depth.DepthMiddleware

允许为任何站点爬网的最大深度。如果为零，则不会施加任何限制。

DEPTH_PRIORITY
默认： 0

范围： scrapy.spidermiddlewares.depth.DepthMiddleware

一个整数，用于根据深度调整请求优先级：

如果为零（默认），则不从深度进行优先级调整
正值将降低优先级，即稍后将处理更高深度的请求 ; 这在进行广度优先爬网（BFO）时常用
负值将增加优先级，即更快的深度请求将被更快地处理（DFO）
另请参阅：Scrapy是以广度优先还是深度优先顺序爬行？关于为BFO或DFO调整Scrapy。

注意

此设置调整优先级以相反的方式相对于其他优先级设置REDIRECT_PRIORITY_ADJUST 和RETRY_PRIORITY_ADJUST。

DEPTH_STATS_VERBOSE
默认： False

范围： scrapy.spidermiddlewares.depth.DepthMiddleware

是否收集详细的深度统计数据。如果启用此选项，则会在统计信息中收集每个深度的请求数。

DNSCACHE_ENABLED
默认： True

是否启用DNS内存缓存。

DNSCACHE_SIZE
默认： 10000

DNS内存缓存大小。

DNS_TIMEOUT
默认： 60

在几秒钟内处理DNS查询的超时。支持浮动。

下载
默认： ‘scrapy.core.downloader.Downloader’

用于抓取的下载程序。

DOWNLOADER_HTTPCLIENTFACTORY
默认： ‘scrapy.core.downloader.webclient.ScrapyHTTPClientFactory’

定义protocol.ClientFactory 用于HTTP / 1.0连接（for HTTP10DownloadHandler）的Twisted 类。

注意

HTTP / 1.0现在很少或使用，因此您可以放心地忽略此设置，除非你使用双绞线<11.1，如果你真的想使用HTTP / 1.0，并覆盖DOWNLOAD_HANDLERS_BASE了http(s)相应的方案，即 ‘scrapy.core.downloader.handlers.http.HTTP10DownloadHandler’。

DOWNLOADER_CLIENTCONTEXTFACTORY
默认： ‘scrapy.core.downloader.contextfactory.ScrapyClientContextFactory’

表示要使用的ContextFactory的类路径。

这里，“ContextFactory”是SSL / TLS上下文的Twisted术语，定义了要使用的TLS / SSL协议版本，是否进行证书验证，甚至启用客户端身份验证（以及其他各种事情）。

注意

Scrapy默认上下文工厂不执行远程服务器证书验证。这通常适用于网页抓取。

如果确实需要启用远程服务器证书验证，Scrapy还有另一个可以设置的上下文工厂类 ‘scrapy.core.downloader.contextfactory.BrowserLikeContextFactory’，它使用平台的证书来验证远程端点。仅当您使用Twisted> = 14.0时才可用。

如果您确实使用自定义ContextFactory，请确保它method 在init 接受参数（这是OpenSSL.SSL方法映射 DOWNLOADER_CLIENT_TLS_METHOD）。

DOWNLOADER_CLIENT_TLS_METHOD
默认： ‘TLS’

使用此设置可自定义默认HTTP / 1.1下载程序使用的TLS / SSL方法。

此设置必须是以下字符串值之一：

‘TLS’：映射到OpenSSL TLS_method()（又名SSLv23_method()），它允许协议协商，从平台支持的最高点开始; 默认，推荐
‘TLSv1.0’：此值强制HTTPS连接使用TLS 1.0版; 如果你想要Scrapy的行为<1.1，请设置此项
‘TLSv1.1’：强制TLS版本1.1
‘TLSv1.2’：强制TLS版本1.2
‘SSLv3’：强制SSL版本3（不推荐）
注意

我们建议您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高（如果可以，Twisted> = 14.0）。

DOWNLOADER_MIDDLEWARES
默认：： {}

包含项目中启用的下载器中间件及其订单的dict。有关更多信息，请参阅激活下载中间件。

DOWNLOADER_MIDDLEWARES_BASE
默认：

{
‘scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware’: 100,
‘scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’: 300,
‘scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’: 350,
‘scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’: 400,
‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’: 500,
‘scrapy.downloadermiddlewares.retry.RetryMiddleware’: 550,
‘scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware’: 560,
‘scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’: 580,
‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’: 590,
‘scrapy.downloadermiddlewares.redirect.RedirectMiddleware’: 600,
‘scrapy.downloadermiddlewares.cookies.CookiesMiddleware’: 700,
‘scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware’: 750,
‘scrapy.downloadermiddlewares.stats.DownloaderStats’: 850,
‘scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware’: 900,
}
包含Scrapy中默认启用的下载器中间件的dict。低订单更接近引擎，高订单更接近下载。您永远不应该在项目中修改此设置，DOWNLOADER_MIDDLEWARES而是修改。有关更多信息，请参阅激活下载中间件。

DOWNLOADER_STATS
默认： True

是否启用下载程序统计信息收集。

DOWNLOAD_DELAY
默认： 0

在从同一网站下载连续页面之前，下载程序应等待的时间（以秒为单位）。这可以用来限制爬行速度，以避免过于严重地击中服务器。支持十进制数。例：

DOWNLOAD_DELAY = 0.25 # 250 ms of delay
此设置也受RANDOMIZE_DOWNLOAD_DELAY 设置（默认情况下启用）的影响。默认情况下，Scrapy不会在请求之间等待一段固定的时间，而是使用0.5 * DOWNLOAD_DELAY和1.5 * 之间的随机间隔DOWNLOAD_DELAY。

当CONCURRENT_REQUESTS_PER_IP非零时，每个IP地址而不是每个域强制执行延迟。

您还可以通过设置download_delay spider属性来更改每个crawler的此设置。

DOWNLOAD_HANDLERS
默认： {}

包含项目中启用的请求下载程序处理程序的dict。请参阅DOWNLOAD_HANDLERS_BASE格式。

DOWNLOAD_HANDLERS_BASE
默认：

{
‘file’: ‘scrapy.core.downloader.handlers.file.FileDownloadHandler’,
‘http’: ‘scrapy.core.downloader.handlers.http.HTTPDownloadHandler’,
‘https’: ‘scrapy.core.downloader.handlers.http.HTTPDownloadHandler’,
‘s3’: ‘scrapy.core.downloader.handlers.s3.S3DownloadHandler’,
‘ftp’: ‘scrapy.core.downloader.handlers.ftp.FTPDownloadHandler’,
}
包含Scrapy中默认启用的请求下载处理程序的dict。您永远不应该在项目中修改此设置，DOWNLOAD_HANDLERS而是修改。

您可以通过分配None其URI方案来禁用任何这些下载处理程序DOWNLOAD_HANDLERS。例如，要禁用内置的FTP处理程序（无需替换），请将其放在settings.py：

DOWNLOAD_HANDLERS = {
‘ftp’: None,
}
DOWNLOAD_TIMEOUT
默认： 180

下载程序在超时之前等待的时间（以秒为单位）。

注意

可以使用download_timeout spider属性为每个spider设置此超时，使用download_timeout Request.meta键为每个请求设置此超时。

DOWNLOAD_MAXSIZE
默认值：1073741824（1024MB）

下载程序将下载的最大响应大小（以字节为单位）。

如果要禁用它，请将其设置为0。

注意

可以使用download_maxsize spider属性为每个crawler设置此大小，使用download_maxsize Request.meta键为每个请求设置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_WARNSIZE
默认值：33554432（32MB）

下载程序将开始警告的响应大小（以字节为单位）。

如果要禁用它，请将其设置为0。

注意

可以使用download_warnsize spider属性为每个crawler设置此大小，使用download_warnsize Request.meta键为每个请求设置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_FAIL_ON_DATALOSS
默认： True

是否在响应中断时失败，即声明 Content-Length与服务器发送的内容不匹配或者分块响应未正确完成。如果True，这些响应会引发 ResponseFailed([_DataLoss])错误。如果False，这些响应被传递并且标志dataloss被添加到响应中，即：是。‘dataloss’ in response.flagsTrue

（可选）可以使用download_fail_on_datalossRequest.meta键为每个请求设置 False。

注意

在从服务器配置错误到网络错误再到数据损坏的几种情况下，可能会发生损坏的响应或数据丢失错误。由用户决定处理损坏的响应是否有意义，因为它们可能包含部分或不完整的内容。如果RETRY_ENABLED是，True并且此设置设置为True，ResponseFailed([_DataLoss])则将像往常一样重试失败。

DUPEFILTER_CLASS
默认： ‘scrapy.dupefilters.RFPDupeFilter’

用于检测和过滤重复请求的类。

默认（RFPDupeFilter）过滤器使用该scrapy.utils.request.request_fingerprint功能基于请求指纹。为了更改检查重复项的方式，您可以子类化RFPDupeFilter并覆盖其request_fingerprint方法。此方法应接受scrapy Request对象并返回其指纹（字符串）。

您可以通过设置DUPEFILTER_CLASS为禁用对重复请求的过滤 ‘scrapy.dupefilters.BaseDupeFilter’。但是要非常小心，因为你可以进入爬行循环。通常最好将dont_filter参数设置为不应过滤True的特定参数 Request。

DUPEFILTER_DEBUG
默认： False

默认情况下，RFPDupeFilter仅记录第一个重复请求。设置DUPEFILTER_DEBUG为True将使其记录所有重复的请求。

编辑
默认值:( vi在Unix系统上）或IDLE编辑器（在Windows上）

用于使用edit命令编辑crawler的编辑器。此外，如果EDITOR设置了环境变量，则edit 命令将优先于默认设置。

扩展
默认：： {}

包含项目中启用的扩展名及其订单的dict。

EXTENSIONS_BASE
默认：

{
‘scrapy.extensions.corestats.CoreStats’: 0,
‘scrapy.extensions.telnet.TelnetConsole’: 0,
‘scrapy.extensions.memusage.MemoryUsage’: 0,
‘scrapy.extensions.memdebug.MemoryDebugger’: 0,
‘scrapy.extensions.closespider.CloseSpider’: 0,
‘scrapy.extensions.feedexport.FeedExporter’: 0,
‘scrapy.extensions.logstats.LogStats’: 0,
‘scrapy.extensions.spiderstate.SpiderState’: 0,
‘scrapy.extensions.throttle.AutoThrottle’: 0,
}
包含Scrapy中默认可用扩展名的dict及其顺序。此设置包含所有稳定的内置扩展。请记住，其中一些需要通过设置启用。

有关详细信息，请参阅扩展程序用户指南和可用扩展程序列表。

FEED_TEMPDIR
Feed Temp dir允许您在使用FTP Feed存储和 Amazon S3上载之前设置自定义文件夹以保存搜寻器临时文件。

FTP_PASSIVE_MODE
默认： True

在启动FTP传输时是否使用被动模式。

FTP_PASSWORD
默认： “guest”

该密码才能使用FTP连接时，有没有"ftp_password" 在Request元。

注意

解释RFC 1635，虽然通常使用密码“guest”或匿名FTP的一个电子邮件地址，但某些FTP服务器明确要求用户的电子邮件地址，并且不允许使用“访客”密码登录。

FTP_USER
默认： “anonymous”

用户名使用的FTP连接时，有没有"ftp_user" 在Request元。

ITEM_PIPELINES
默认： {}

包含要使用的项目管道的dict及其命令。订单值是任意的，但通常在0-1000范围内定义它们。在更高订单之前降低订单处理。

例：

ITEM_PIPELINES = {
‘mybot.pipelines.validate.ValidateMyItem’: 300,
‘mybot.pipelines.validate.StoreMyItem’: 800,
}
ITEM_PIPELINES_BASE
默认： {}

包含Scrapy中默认启用的管道的dict。您永远不应该在项目中修改此设置，ITEM_PIPELINES而是修改。

LOG_ENABLED
默认： True

是否启用日志记录。

LOG_ENCODING
默认： ‘utf-8’

用于记录的编码。

LOG_FILE
默认： None

用于记录输出的文件名。如果None，将使用标准错误。

LOG_FORMAT
默认： ‘%(asctime)s [%(name)s] %(levelname)s: %(message)s’

用于格式化日志消息的字符串。有关可用占位符的完整列表，请参阅Python日志记录文档。

LOG_DATEFORMAT
默认： ‘%Y-%m-%d %H:%M:%S’

用于格式化日期/时间的字符串，用于扩展%(asctime)s占位符LOG_FORMAT。有关可用指令的完整列表，请参阅Python datetime文档。

LOG_LEVEL
默认： ‘DEBUG’

记录的最低级别。可用级别包括：CRITICAL，ERROR，WARNING，INFO，DEBUG。有关更多信息，请参阅记录。

LOG_STDOUT
默认： False

如果True，您的进程的所有标准输出（和错误）将重定向到日志。例如，如果print(‘hello’)它将出现在Scrapy日志中。

LOG_SHORT_NAMES
默认： False

如果True，日志将只包含根路径。如果设置为False 则显示负责日志输出的组件

MEMDEBUG_ENABLED
默认： False

是否启用内存调试。

MEMDEBUG_NOTIFY
默认： []

启用内存调试时，如果此设置不为空，则会将内存报告发送到指定的地址，否则报告将写入日志。

例：

MEMDEBUG_NOTIFY = [‘user@example.com’]
MEMUSAGE_ENABLED
默认： True