首先大家要知道什么是中间件,中间件的作用是什么,中间件在哪。
scrapy框架中间件有两种:下载中间件,爬虫中间件。
中间件(middewares):中间件是用来存放各种中间件的文件,比如User-Agant,ip代理等重要组件。
中间件的作用:中间件用来处理请求失败所要面临的问题,比如解决UA被封禁,IP被服务器列入黑名单,从而导致无法爬取。简单来说就是处理反爬的一些手段。
中间件的位置:一般存放在爬虫目录的下方,如下图:
中间件的使用方法(介绍常用的两种方法):
第一种:利用随机函数获取User-Agent
第二种:利用模块进行随机获取User-Agent
这种方法相比较第一种,就是不用找UA,模块可以自动生成任意个UA
具体使用可以查询fake_useragent模块进一步了解。
以上就是下载中间件中的User-Agent的使用,主要作用就是反反爬。