Scrapy之Request函数回调未执行解决方案

最新推荐文章于 2022-09-14 22:16:19 发布

似水@流年

最新推荐文章于 2022-09-14 22:16:19 发布

阅读量2.9k

点赞数 3

分类专栏： Scrapy

本文链接：https://blog.csdn.net/mr_hui_/article/details/80435941

版权

6 篇文章 0 订阅

订阅专栏

scrapy 执行Request函数时，回调函数未执行情况：

yield scrapy.Request(url=parse.urljoin(response.url, post_url), headers=self.headers, callback=self.parse_detail)

执行的时候发现parse_detail未被调用，很大可能是被allowed_domains给过滤掉了。查看scrapy的运行日志，可以查看'offsite/filtered': 21,被过滤了21个域名。

其实，这些日志信息都是由 scrapy 中的一个 middleware 抛出的，如果没有自定义，那么这个 middleware 就是默认的 Offsite Spider Middleware，它的目的就是过滤掉那些不在 allowed_domains 列表中的请求 requests。

这些日志信息都是由 scrapy 中的一个 middleware 抛出的，如果没有自定义，那么这个 middleware 就是默认的 Offsite Spider Middleware，它的目的就是过滤掉那些不在 allowed_domains 列表中的请求 requests。

解决方案：

两种方法能够使 requests 不被过滤:
1. 在 allowed_domains 中加入 url ；
2. 在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True。

关注