Scrapy：下载器中间件介绍

最新推荐文章于 2023-06-29 09:08:21 发布

旧人小表弟

最新推荐文章于 2023-06-29 09:08:21 发布

阅读量367

点赞数

分类专栏：网络爬虫文章标签：中间件 java python spring http

本文链接：https://blog.csdn.net/weixin_43040873/article/details/110704666

版权

39 篇文章 1 订阅

订阅专栏

Downloader Middlewares（下载器中间件）

下载器中间件是引擎和下载器之间通行的中间件，在这个中间件中可以设置代理、更换请求头… 来达到反反爬虫的目的。

要写下载器中间件，可以在下载器中实现两个方法：
process_request(self, request, spider)：这个方法是在请求发送之前执行
process_response(self, request, response, spider)：这个方法是在数据下载到引擎之前执行

这个方法是下器在发送请求之前会执行的，一般可以在这个里面设置随机代理ip等

1、参数：

2、返回值：

返回None：如果返回None, Scrapy将继续处理该request，执行其他中间件中相应的方法，直到合适的下载器处理函数被调用
返回Response对象：Scrapy将不会调用任何其他的process_request方法，将直接返回这个response对象，已激活中间件process_response方法的话则会在每个response返回时被调用
返回Request对象：不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据
如果这个方法中抛出了异常，则会调用process_exception方法

在这里插入图片描述

这个是下载器下载的数据到引擎中间会执行的方法

1、参数：

2、返回值：

返回Response对象：会将这个新的response对象传给其他中间件，最终传给爬虫
返回Request对象：下载器链被切断，返回的request会重新被下载器调度下载
如果批出一个异常，会调用request的errback方法，如果没有指定这个方法，会抛出一个异常

errback是Request对象在发生错误的时候执行的函数

关注

专栏目录