scrapy spider 一些设置属性说明

最新推荐文章于 2020-12-10 12:00:46 发布

henry620

最新推荐文章于 2020-12-10 12:00:46 发布

阅读量1.7k

点赞数 1

分类专栏： Python scrapy 文章标签： scrapy spider config

本文链接：https://blog.csdn.net/henry620/article/details/55505172

版权

Python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

scrapy

3 篇文章 0 订阅

订阅专栏

settings.py

DOWNLOAD_TIMEOUT = 10 # 下载超时时间
HTTPERROR_ALLOWED_CODES = [403, 502, 503, 404] # 这个设置项，可以在中间调试器中间能访问到这些code码，如果不设置这些的话，是不是访问到的

RETRY_TIMES = 5 #重复执行5次
RETRY_HTTP_CODES = [500, 502, 503, 504, 400, 403, 404, 408] #出现这些错误码会重复执行的
DOWNLOAD_DELAY = 3 时间间隔

spider文件下设置

1. 
priority=9，# 这个设置是下载url优先级（数子大优先权大）
如：
yield scrapy.Request(
                url=url_citation,
                meta={
                    'sql': retSql
                },
                callback=self.GetCitation,
                priority=9,
            )
 2. 设置某个spider单独使用的设置项等等。
 custom_settings = {
        'DOWNLOAD_DELAY': 0.2,
        'CONCURRENT_REQUESTS_PER_IP': 4,
        'DOWNLOADER_MIDDLEWARES': {},
    }