scrapy自定义重试方法

最新推荐文章于 2024-05-14 15:25:34 发布

Python爬虫与算法进阶

最新推荐文章于 2024-05-14 15:25:34 发布

阅读量830

点赞数

本文链接：https://blog.csdn.net/m0_37148637/article/details/103461360

版权

本文介绍了如何在Scrapy爬虫中自定义重试逻辑，特别是在解析JSON出错或HTML缺失预期数据时如何重试请求。通过捕获异常并设置重试次数，避免无限循环，提供了一种在响应对象上封装重试功能的方法，以实现代码复用和爬虫问题定位。

摘要由CSDN通过智能技术生成

Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如，我解析json出错了，html中不包含我想要的数据，我要重试这个请求（request）。

我们先看看官方是如何完成重试的

[scrapy/downloadermiddlewares/retry.py]

https://github.com/scrapy/scrapy/blob/master/scrapy/downloadermiddlewares/retry.py#L63

    def _retry(self, request, reason, spider):
        retries = request.meta.get('retry_times', 0) + 1

        retry_times = self.max_retry_times

        if 'max_retry_times' in request.meta:
            retry_times = request.meta['max_retry_times']

        stats = spider.crawler.stats
        if retries <= retry_times:
            logger.debug("Retrying %(request)s (failed %(retries)d times): %(reason)s",
                         {
    're