scrapy 下载中间件的调度与返回

最新推荐文章于 2023-01-17 16:22:04 发布

asyncdragon

最新推荐文章于 2023-01-17 16:22:04 发布

阅读量640

点赞数 1

分类专栏： scrapy 文章标签：中间件 python

本文链接：https://blog.csdn.net/asyncdragon/article/details/116496572

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scrapy下载中间件的调用顺序以及返回值

本篇博文用以探索scrapy运行时调用下载中间件的调用顺序以及相应的返回值时的变化。

步骤1

运行一个正常的scrapy爬虫程序，示例代码如下`
import scrapy

class Test1Spider(scrapy.Spider):
name = ‘test1’
start_urls = [‘http://www.baidu.com/’]

def parse(self, response):
    print('spider运行')

if name == ‘main’:
from scrapy import cmdline
cmdline.execute(‘scrapy crawl test1’.split())`
当爬虫运行结束时，截取到的下载中间件运行的info如下：
scrapy下载中间件

步骤2

注销默认的中间件，并根据中间件的优先级添加测试中间件，如图所示：
改变运行的中间件，并添加测试中间件
在中间件中，统一设置成打印优先级编号，以及处理的函数名，如图所示：
所有测试中间件
在这里插入图片描述

步骤3

接着打开所有的测试中间件，打印出正常情况下的中间件的调用顺序，如图所示：
正常处理中间件的scrapy爬虫

结论1：在不出现异常的情况下，先调用从优先级高（数字少）的中间件下的process_request到优先级低（数字大）的中间件下的process_requests；再从优先级低的中间件下的process_response到优先级高的中间件下的process_response。

步骤4

更改process_request，process_response的条件或者返回不同对象，查看调用顺序。
1，在处理request函数中加入条件，并返回request。
更改reques函数条件，并且返回request
执行结果如图：
返回request的调用顺序
2，在处理request函数中加入条件，并返回spider对象。
request返回spider对象
执行的结果如图：
返回spider出现异常
异常体
3，在处理request函数中加入条件，并返回response对象。
加入的条件返回response对象
执行结果如图：
在这里插入图片描述
4，在处理response函数中加入条件，满足条件返回request对象否则返回response对象。

执行结果如图所示：

5，在处理response函数中加入条件，满足条件返回spider对象否则返回response对象。

执行结果如图：
在这里插入图片描述
6，在处理异常的函数中添加条件，并返回request对象。

执行结果为正常显示。
7，在request函数抛出一个异常，在处理异常函数中添加条件，并返回request对象。

执行结果如图所示：

8，在request函数抛出一个异常，在处理函数中添加条件，处理异常返回响应，否则返回request对象。
在这里插入图片描述
执行结果如图所示：

9，在request函数抛出一个异常，在处理函数中添加条件，处理异常返回字符对象，否则返回request对象。

执行结果如图所示：

结论2：scrapy在处理process_request函数时可以返回的对象是None,Request,Response;在处理process_response函数时可以返回的对象是Request,Response;在处理process_exception时，可以返回的是None,Request,Response。

结论3：当返回的对象是request，scrapy重新调度request从优先级高的中间件到低的中间件；当返回的是response,scrapy调度从优先级低的中间件process_response到优先级高的中间件process_response；当抛出异常，scrapy调度从优先级低的中间件process_exception到优先级高的中间件process_exception。

总结

以上是从一个简单的测试例子看scrapy在运行时调度下载中间件的顺序，以及返回对象不同时怎样的变化。技术有限，有误的地方忘提出，定加以修改。

asyncdragon

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
scrapy 下载中间件的调度与返回

scrapy下载中间件的调用顺序以及返回值本篇博文用以探索scrapy运行时调用下载中间件的调用顺序以及相应的返回值时的变化。步骤1运行一个正常的scrapy爬虫程序，示例代码如下`import scrapyclass Test1Spider(scrapy.Spider):name = ‘test1’start_urls = [‘http://www.baidu.com/’]def parse(self, response): print('spider运行')if name =
复制链接

扫一扫