scrapy setting

https://doc.scrapy.org/en/latest/topics/settings.html

参数备注描述
AWS_ACCESS_KEY_IDNone连接 Amazon Web services 的AWS access key
AWS_SECRET_ACCESS_KEYNone连接 Amazon Web services 的AWS secret key
BOT_NAMEscrapybot’Scrapy项目实现的bot的名字
CONCURRENT_ITEMS100Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。
CONCURRENT_REQUESTS16Scrapy downloader 并发请求(concurrent requests)的最大值。
CONCURRENT_REQUESTS_PER_DOMAIN8对单个网站进行并发请求的最大值。
CONCURRENT_REQUESTS_PER_IP0对单个IP进行并发请求的最大值。
DEFAULT_ITEM_CLASSscrapy.item.Item’the Scrapy shell 中实例化item使用的默认类
DEFAULT_REQUEST_HEADERSScrapy HTTP Request使用的默认header
DEPTH_LIMIT0爬取网站最大允许的深度(depth)值。如果为0,则没有限制。
DEPTH_PRIORITY0整数值。用于根据深度调整request优先级。如果为0,则不根据深度进行优先级调整。
DEPTH_STATSTRUE是否收集最大深度数据。
DEPTH_STATS_VERBOSEFALSE是否收集详细的深度数据。如果启用,每个深度的请求数将会被收集在数据中。
DNSCACHE_ENABLEDTRUE是否启用DNS内存缓存(DNS in-memory cache)。
DNSCACHE_SIZE10000DNS in-memory cache size.
DNS_TIMEOUT60Timeout for processing of DNS queries in seconds. Float is supported.
DOWNLOADERscrapy.core.downloader.Downloader’用于crawl的downloader.
DOWNLOADER_MIDDLEWARES{}保存项目中启用的下载中间件及其顺序的字典。
DOWNLOADER_MIDDLEWARES_BASE包含Scrapy默认启用的下载中间件的字典。
DOWNLOADER_STATSTRUE是否收集下载器数据。
DOWNLOAD_DELAY0下载器在下载同一个网站下一个页面前需要等待的时间。
DOWNLOAD_HANDLERS保存项目中启用的下载处理器(request downloader handler)的字典。
DOWNLOAD_HANDLERS_BASE保存项目中默认启用的下载处理器(request downloader handler)的字典。
DOWNLOAD_TIMEOUT180下载器超时时间(单位: 秒)。
DOWNLOAD_MAXSIZE最大的响应大小
DOWNLOAD_WARNSIZE最大响应提醒大小
DUPEFILTER_CLASSscrapy.dupefilters.RFPDupeFilter’用于检测过滤重复请求的类。
DUPEFILTER_DEBUGFALSE默认情况下, RFPDupeFilter 只记录第一次重复的请求。 设置 DUPEFILTER_DEBUG 为 True 将会使其记录所有重复的requests。
EDITORdepends on the environment执行 edit 命令编辑spider时使用的编辑器。
EXTENSIONS保存项目中启用的插件及其顺序的字典。
EXTENSIONS_BASE可用的插件列表。
ITEM_PIPELINES保存项目中启用的pipeline及其顺序的字典。
ITEM_PIPELINES_BASE保存项目中默认启用的pipeline的字典。
LOG_ENABLEDTRUE是否启用logging。
LOG_ENCODINGutf-8’logging使用的编码。
LOG_FILENone如果为None,则使用标准错误输出(standard error)。
LOG_FORMATlog的格式
LOG_DATEFORMATlog时间格式
LOG_LEVELlog的最低级别
LOG_STDOUTFALSE如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中。
MEMDEBUG_ENABLEDFALSE是否启用内存调试(memory debugging)。
MEMDEBUG_NOTIFY如果该设置不为空,当启用内存调试时将会发送一份内存报告到指定的地址;否则该报告将写到log中。
MEMUSAGE_ENABLEDFALSE是否启用内存使用插件。
MEMUSAGE_LIMIT_MB0在关闭Scrapy之前所允许的最大内存数
MEMUSAGE_NOTIFY_MAILFALSE达到内存限制时通知的email列表
MEMUSAGE_REPORTFALSE每个spider被关闭时是否发送内存使用报告。
MEMUSAGE_WARNING_MB0在发送警告email前所允许的最大内存数
NEWSPIDER_MODULE使用 genspider 命令创建新spider的模块。
RANDOMIZE_DOWNLOAD_DELAYTRUE如果启用,当从相同的网站获取数据时,Scrapy将会等待一个随机的值 (0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY)。
REACTOR_THREADPOOL_MAXSIZE10The maximum limit for Twisted Reactor thread pool size.
REDIRECT_MAX_TIMES20定义request允许重定向的最大次数。
REDIRECT_MAX_METAREFRESH_DELAY100有些网站使用 meta-refresh 重定向到session超时页面, 因此我们限制自动重定向到最大延迟(秒)。
REDIRECT_PRIORITY_ADJUST2修改重定向请求相对于原始请求的优先级。 负数意味着更多优先级。
ROBOTSTXT_OBEYFALSE如果启用,Scrapy将会尊重 robots.txt策略。
SCHEDULERscrapy.core.scheduler.Scheduler’用于爬取的调度器。
SPIDER_CONTRACTS保存项目中启用用于测试spider的scrapy contract及其顺序的字典。
SPIDER_CONTRACTS_BASE保存项目中默认启用的scrapy contract的字典。
SPIDER_LOADER_CLASSscrapy.spiderloader.SpiderLoader’The class that will be used for loading spiders
SPIDER_MIDDLEWARES保存项目中启用的下载中间件及其顺序的字典。
SPIDER_MIDDLEWARES_BASE保存项目中默认启用的spider中间件的字典。
SPIDER_MODULESScrapy搜索spider的模块列表。
STATS_CLASSscrapy.statscollectors.MemoryStatsCollector’收集数据的类。
STATS_DUMPTRUE当spider结束时dump Scrapy状态数据 (到Scrapy log中)。
STATSMAILER_RCPTSspider完成爬取后发送Scrapy数据。
TELNETCONSOLE_ENABLEDTRUE表明 telnet 终端 (及其插件)是否启用的布尔值。
TELNETCONSOLE_PORT[6023, 6073]telnet终端使用的端口范围。如果设置为 None 或 0 , 则使用动态分配的端口。
TEMPLATES_DIR默认: scrapy模块内部的 templates使用 startproject 命令创建项目时查找模板的目录。
URLLENGTH_LIMIT2083爬取URL的最大长度。
USER_AGENT爬取的默认User-Agent,除非被覆盖。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值