Day 24 24.1 Scrapy框架之下载中间件

最新推荐文章于 2023-06-29 09:08:21 发布

Chimengmeng

最新推荐文章于 2023-06-29 09:08:21 发布

阅读量76

点赞数

文章标签：中间件 scrapy c# servlet nginx

本文链接：https://blog.csdn.net/Chimengmeng/article/details/130257301

版权

Scrapy框架之下载中间件

class MyDownMiddleware(object):
    def process_request(self, request, spider):
        """
        请求需要被下载时，经过所有下载器中间件的process_request调用
        :param request: 
        :param spider: 
        :return:  
            None,继续后续中间件去下载；
            Response对象，停止process_request的执行，开始执行process_response
            Request对象，停止中间件的执行，将Request重新调度器
            raise IgnoreRequest异常，停止process_request的执行，开始执行process_exception
        """
        pass


    def process_response(self, request, response, spider):
        """
        spider处理完成，返回时调用
        :param response:
        :param result:
        :param spider:
        :return: 
            Response 对象：转交给其他中间件process_response
            Request 对象：停止中间件，request会被重新调度下载
            raise IgnoreRequest 异常：调用Request.errback
        """
        print('response1')
        return response

    def process_exception(self, request, exception, spider):
        """
        当下载处理器(download handler)或 process_request() (下载中间件)抛出异常
        :param response:
        :param exception:
        :param spider:
        :return: 
            None：继续交给后续中间件处理异常；
            Response对象：停止后续process_exception方法
            Request对象：停止中间件，request将会被重新调用下载
        """
        return None

案例

import logging
import time
import random


# http://httpbin.org/get
class TestMiddleware:
    """This middleware allows spiders to override the user_agent"""
    user_agent_list = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
    ]

    proxies = [
        "http://61.216.185.88:60808",
    ]

    def process_request(self, request, spider):
        # 设置一个随机的UA
        request.headers['User-Agent'] = random.choice(self.user_agent_list)

        # 每一个请求延迟随机时间
        delay = random.uniform(0, 1)
        time.sleep(delay)
        logging.info(f"延迟{delay}秒发起请求")

        # 设置随机代理IP
        random_ip = random.choice(self.proxies)
        request.meta["proxy"] = random_ip
        logging.info(f"当前代理IP{random_ip}")

Chimengmeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day 24 24.1 Scrapy框架之下载中间件

Scrapy框架之下载中间件class MyDownMiddleware(object): def process_request(self, request, spider): """ 请求需要被下载时，经过所有下载器中间件的process_request调用 :param request: :param spide...
复制链接

扫一扫