Scrapy框架的学习(11.scrapy框架中的下载中间件的使用(DownloaderMiddlewares))

最新推荐文章于 2023-06-29 09:08:21 发布

还是那个同伟伟

最新推荐文章于 2023-06-29 09:08:21 发布

阅读量298

点赞数

分类专栏： Scarpy框架 Scrapy框架文章标签： DownloaderMiddlewares 下载中间键

本文链接：https://blog.csdn.net/wei18791957243/article/details/86484508

版权

Scrapy框架同时被 2 个专栏收录

13 篇文章 4 订阅

订阅专栏

Scarpy框架

12 篇文章 1 订阅

订阅专栏

1.Downloader Middlewares （下载中间键）：引擎会先把Requets对象交给下载中间键再然后交给Downloader

2.使用方法：

(1) 编写一个Downloader Middlewares 和我们编写一个pipeline一样，定义一个类，然后在settings中开启

(2) Downloader Middlewares默认的方法：

process_request(self,request,spider): 当每个request通过下载中间件时，该方法被调用。(处理请求)

process_response(self,request,response,spider):当下载器完成http请求，传递响应给引擎的时候调用（处理响应）

3. 可以在process_request()方法里面添加自定义的UA,给request的headers赋值即可

而且可以添加代理：需要在reques的meta信息中添加proxy字段

request.meta["proxy"] = "协议代理IP和端口号"

4.middlewares.py里面进行编辑
'''导入随机获取浏览器的模块'''
import user_agent    


class RandomUserAgentMiddleware:

    def process_request(self, request, spider):、
        '''随机获取浏览器的标识'''
        ua = user_agent.generate_user_agent()
        '''设置浏览器的标识'''
        request.headers["User-Agent"] = ua

class CheckUserAgent:

    def process_response(self,request,response, spider):
        print(dir(response))
        print(request.headers['User-Agent'])
        return response
然后在settings里面进行开启：
DOWNLOADER_MIDDLEWARES = {
   'Cookes_login.middlewares.RandomUserAgentMiddleware': 543,
   'Cookes_login.middlewares.CheckUserAgent': 544,
}
5. 在 middlewares里还有 process_excetion(request,exception,spider)

这个方法是专门帮助我们处理异常，类似代理ip不可用等的异常，我们可以对这个异常进行处理