scrapy框架介绍（六、scrapy中间件介绍）

最新推荐文章于 2022-01-26 13:59:19 发布

Dannys彬彬

最新推荐文章于 2022-01-26 13:59:19 发布

阅读量267

点赞数

分类专栏： python爬虫 Scrapy 文章标签： python

本文链接：https://blog.csdn.net/binbin327805084/article/details/107317156

版权

python爬虫同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

Scrapy

7 篇文章 0 订阅

订阅专栏

scrapy中间件

1 scrapy中间件的分类和作用

1.1 scrapy中间件的分类

根据scrapy运行流程中所在位置不同分为：

下载中间件
爬虫中间件

1.2 scrapy中间的作用

主要功能是在爬虫运行过程中进行一些处理，如对非200响应的重试（重新构造Request对象yield给引擎）
也可以对header以及cookie进行更换和处理
其他根据业务需求实现响应的功能

但在scrapy默认的情况下两种中间件都在middlewares.py一个文件中

爬虫中间件使用方法和下载中间件相同，常用下载中间件

2 下载中间件的使用方法：

接下来我们对腾讯招聘爬虫进行修改完善，通过下载中间件来学习如何使用中间件编写一个Downloader Middlewares和我们编写一个pipeline一样，定义一个类，然后在setting中开启

Downloader Middlewares默认的方法：

process_request(self, request, spider)：
- 当每个request通过下载中间件时，该方法被调用。
- 返回None值：继续请求
- 返回Response对象：不再请求，把response返回给引擎
- 返回Request对象：把request对象交给调度器进行后续的请求
process_response(self, request, response, spider)：
- 当下载器完成http请求，传递响应给引擎的时候调用
- 返回Resposne：交给process_response来处
- 返回Request对象：交给调取器继续请求

3. 定义实现随机User-Agent的下载中间件

3.1 在middlewares.py中完善代码

import random
from fake_useragent import UserAgent
from Tencent.settings import USER_AGENTS_LIST # 注意导入路径,请忽视pycharm的错误提示

ua = UserAgent()

class UserAgentMiddleware(object):
    def process_request(self, request, spider):
        user_agent = random.choice(USER_AGENTS_LIST)
        request.headers['User-Agent'] = ua.random

3.2 在爬虫文件tencent.py的每个解析函数中添加

class CheckUA:
    def process_response(self,request,response,spider):
        print(request.headers['User-Agent'])

3.3 在settings中设置开启自定义的下载中间件，设置方法同管道

DOWNLOADER_MIDDLEWARES = {
   'Tencent.middlewares.UserAgentMiddleware': 543,
}

3.4 在settings中添加UA的列表

USER_AGENTS_LIST = [ 
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)", \
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", \
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", \
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", \
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6", \
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", \
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0", \
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5" ]

4 代理ip的使用

4.1 思路分析

代理添加的位置：request.meta中增加proxy字段
获取一个代理ip，赋值给request.meta['proxy']
- 代理池中随机选择代理ip
- 代理ip的webapi发送请求获取一个代理ip

4.2 具体实现

class ProxyMiddleware(object):
    def process_request(self,request,spider):
        proxy = random.choice(proxies) # proxies可以在settings.py中，也可以来源于代理ip的webapi
        # proxy = 'http://192.168.1.1:8118'
        request.meta['proxy'] = proxy
        return None # 可以不写return

4.3 检测代理ip是否可用

在使用了代理ip的情况下可以在下载中间件的process_response()方法中处理代理ip的使用情况，如果该代理ip不能使用可以替换其他代理ip

class ProxyMiddleware(object):
    def process_response(self, request, response, spider):
        if response.status != '200' and response.status != '302':
            #此时对代理ip进行操作，比如删除
            return request

Dannys彬彬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架介绍（六、scrapy中间件介绍）

目录scrapy中间件1 scrapy中间件的分类和作用1.1 scrapy中间件的分类1.2 scrapy中间的作用2 下载中间件的使用方法：3. 定义实现随机User-Agent的下载中间件3.1 在middlewares.py中完善代码3.2 在爬虫文件tencent.py的每个解析函数中添加3.3 在settings中设置开启自定义的下载中间件，设置方法同管道3.4 在settings中添加UA的列表4 代理ip的使用4.1 思路分析4.2 具体实现4.3 检测代理ip是否可用scrapy中间件
复制链接

扫一扫

专栏目录