settings.py
DOWNLOAD_TIMEOUT = 10 # 下载超时时间
HTTPERROR_ALLOWED_CODES = [403, 502, 503, 404] # 这个设置项,可以在中间调试器中间能访问到这些code码,如果不设置这些的话,是不是访问到的
RETRY_TIMES = 5 #重复执行5次
RETRY_HTTP_CODES = [500, 502, 503, 504, 400, 403, 404, 408] #出现这些错误码会重复执行的
DOWNLOAD_DELAY = 3 时间间隔
spider文件下设置
1.
priority=9,
如:
yield scrapy.Request(
url=url_citation,
meta={
'sql': retSql
},
callback=self.GetCitation,
priority=9,
)
2. 设置某个spider单独使用的设置项等等。
custom_settings = {
'DOWNLOAD_DELAY': 0.2,
'CONCURRENT_REQUESTS_PER_IP': 4,
'DOWNLOADER_MIDDLEWARES': {},
}