scrapy的errback

最新推荐文章于 2023-12-20 19:35:22 发布

Python爬虫与算法进阶

最新推荐文章于 2023-12-20 19:35:22 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/m0_37148637/article/details/103461378

版权

在Scrapy框架中，可通过设置DOWNLOAD_TIMEOUT参数来限制请求下载的最大时间，例如设置为10秒。当发生下载超时时，系统会记录错误并可能进行重试。在DEBUG日志级别下，可以观察到重试过程。为了处理这些错误，可以使用errback函数，它能在连接建立超时或DNS错误等情况下捕获并处理异常。官方示例展示了如何在Request对象中结合使用callback和errback功能。

摘要由CSDN通过智能技术生成

在scrapy我们可以设置一些参数，如DOWNLOAD_TIMEOUT，一般我会设置为10，意思是请求下载时间最大是10秒，文档介绍

如果下载超时会抛出一个错误，比如说

    def start_requests(self):
        yield scrapy.Request('https://www.baidu.com/', meta={
    'download_timeout': 0.1})

日志设为DEBUG级别，重试设为3次，运行之后的日志

2019-05-23 19:38:01 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://www.baidu.com/> (failed 1 times): User timeout caused connection failure: Getting https://www.baidu.com/ took longer than 0.1 seconds..
2019-05-23 19:38:01 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://www.baidu.com/> (failed 2 times): User t