scrapy爬虫中间件处理流程

看大图:
在这里插入图片描述

  • 1、引擎发送response对象给爬虫中间件中的输入信息处理函数:process_spider_input,之后该函数会返回None或者引发异常。
    • (1). 图中以1代表返回的是None,2代表引发的异常,
      若返回None,则继续调用下一个爬虫中间件中的同类函数处理,直至传递给爬虫。
      (2).若任一爬虫中间件中该类函数引发异常则调用request对象的errback方法(前提是定义了该方法,若未定义则会进入process_spider_exception处理链中)。
  • 2、爬虫得到response对象后返回可迭代的对象result或item,
    然后进入输出信息处理链中 process_spider_output。
    • (1).由图可知必须返回可迭代对象或者引发异常,
      若是可迭代对象则继续在处理链中传递,直至给引擎。
      (2).引发异常则会从该中间件进入process_spider_exception的处理链中)
      在异常处理链中处理相应的异常,若不能处理异常会直至传递到引擎被记录忽略掉
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值