Scrapy中Request的回调函数不执行

最新推荐文章于 2023-03-24 17:58:20 发布

Meiracle

最新推荐文章于 2023-03-24 17:58:20 发布

阅读量1k

点赞数 4

分类专栏：问题解决文章标签： python scrapy

本文链接：https://blog.csdn.net/jarwis/article/details/119136270

版权

问题解决专栏收录该内容

38 篇文章 1 订阅

订阅专栏

一. 举例

def parse(self, response):
    ...
     yield Request(url=parse.urljoin(response.url, title_herf), meta=meta,
                      callback=self.parse_detail)
                      
def parse_detail(self,response):
    ...

二. 原因

调试的时候，发现回调函数 parse_detail 没有被调用，这可能就是被过滤掉了，
查看 scrapy 的输出日志 offsite/filtered 会显示过滤的数目。

查看手册发现，
这些日志信息都是由 scrapy 中的一个 middleware 抛出的，
如果没有自定义，那么这个 middleware 就是默认的 Offsite Spider Middleware，
它的目的就是过滤掉那些不在 allowed_domains 列表中的请求 requests

三. 解决

在 allowed_domains 中加入 url
在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True

def parse(self, response):
    ...
     yield Request(url=parse.urljoin(response.url, title_herf), meta=meta,
                      callback=self.parse_detail,dont_filter=True)
-------------------------------------------------^                      
def parse_detail(self,response):
    ...