Scrapy 学习篇(八)--下载中间件

最新推荐文章于 2023-06-29 09:08:21 发布

qq_42052864

最新推荐文章于 2023-06-29 09:08:21 发布

阅读量162

点赞数

分类专栏： scrapy 文章标签： scrapy 下载中间件

本文链接：https://blog.csdn.net/qq_42052864/article/details/115824984

版权

scrapy 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

setting中定义好"USER_AGENTS_LIST"，同时开启下载中间件

import random

class RandomUserAgentMiddleware:
    #当每个request经过下载中间件时，该方法被调用
    def process_request(self,request,spider):
        ua = random.choice(spider.settings.get("USER_AGENTS_LIST"))
        request.headers["User-Agent"] = ua

class CheckUserAgent:
    #当下载器完成http请求时，传递响应给引擎时调用
    def process_response(self,request,response,spider):
        print(request.headers["User-Agent"])
        return response

class ProxyMiddleware(object):
    #在request的meta信息中添加proxy字段
    def process_request(self,request,spider):
        request.meta["proxy"] = "http://124.115.126.76:808"

1. process_request(self,request,spider)方法：
    这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
    1. 参数：
        * request：发送请求的request对象。
        * spider：发送请求的spider对象。
    2. 返回值：
        * 返回None：如果返回None，Scrapy将继续处理该request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。
        * 返回Response对象：Scrapy将不会调用任何其他的process_request方法，将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。
        * 返回Request对象：不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据。
        * 如果这个方法中抛出了异常，则会调用process_exception方法。

2. process_response(self,request,response,spider)方法：
    这个是下载器下载的数据到引擎中间会执行的方法。
    1. 参数：
        * request：request对象。
        * response：被处理的response对象。
        * spider：spider对象。
    2. 返回值：
        * 返回Response对象：会将这个新的response对象传给其他中间件，最终传给爬虫。
        * 返回Request对象：下载器链被切断，返回的request会重新被下载器调度下载。
        * 如果抛出一个异常，那么调用request的errback方法，如果没有指定这个方法，那么会抛出一个异常。

qq_42052864

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy 学习篇(八)--下载中间件

setting中定义好"USER_AGENTS_LIST"，同时开启下载中间件import randomclass RandomUserAgentMiddleware: #当每个request经过下载中间件时，该方法被调用 def process_request(self,request,spider): ua = random.choice(spider.settings.get("USER_AGENTS_LIST")) request.heade
复制链接

扫一扫