Downloader Middlewares(下载器中间件)
下载器中间件是引擎和下载器之间通行的中间件,在这个中间件中可以设置代理、更换请求头… 来达到反反爬虫的目的。
要写下载器中间件,可以在下载器中实现两个方法:
process_request(self, request, spider)
:这个方法是在请求发送之前执行
process_response(self, request, response, spider)
:这个方法是在数据下载到引擎之前执行
process_request(self, request, spider)
这个方法是下器在发送请求之前会执行的,一般可以在这个里面设置随机代理ip等
1、参数:
- request:发送请求的request对象
- spider:发送请求的spider对象
2、返回值:
- 返回None:如果返回None, Scrapy将继续处理该request,执行其他中间件中相应的方法,直到合适的下载器处理函数被调用
- 返回Response对象:Scrapy将不会调用任何其他的process_request方法,将直接返回这个response对象,已激活中间件process_response方法的话 则会在每个response返回时被调用
- 返回Request对象:不再使用之前的request对象去下载数据,而是根据现在返回的request对象返回数据
- 如果这个方法中抛出了异常,则会调用process_exception方法
process_response(self, request, response, spider)
这个是下载器下载的数据到引擎中间会执行的方法
1、参数:
- request:request对象
- response:被处理的response对象
- spider:spider对象
2、返回值:
-
返回Response对象:会将这个新的response对象传给其他中间件,最终传给爬虫
-
返回Request对象:下载器链被切断,返回的request会重新被下载器调度下载
-
如果批出一个异常,会调用request的errback方法,如果没有指定这个方法,会抛出一个异常
errback是Request对象在发生错误的时候执行的函数