Scrapy基础之中间件(二)

本人常用中间件

自定义代理中间件ProxyMiddleware

实现功能:

  • 对每一个请求配置一个代理IP

  • 对响应进行处理,如果状态码不为200,重新请求

  • 对异常进行处理,出现超时,503或IP被封时进行代理重试

class xxxProxyMiddleware(object):
    def process_request(self, request, spider):
        ip = random.choice(IP_Pool)
        request.meta['proxy'] = ip
        print(request.meta['proxy'])

    def process_response(self, request, response, spider):
        if response.status == 200:
			return response
		else:
			print("状态码错误,重新请求")
			ip = random.choice(IP_Pool)
			print("this is response ip:" + ip)
			request.meta['proxy'] = ip
			return request

    def process_exception(self, request, exception, spider):
        # 出现异常时(超时)使用代理
        print("\n出现异常,正在使用代理重试....\n")
        ip = random.choice(IP_Pool)
        request.meta['proxy'] = ip
        return request

自定义随机UA中间件

如果对User-Agent没有特定要求,可以使用fake_useragent库。

class RandomUAMiddleware(object):
    def process_request(self, request, spider):
		ua = random.choice(agents)
		request.headers['User-Agent'] = ua
from fake_useragent import UserAgent
ua = UserAgent().random

重试中间件

scrapy自带scrapy.downloadermiddlewares.retry.RetryMiddleware中间件,如果想设置重试次数,可以在settings.py中进行配置

RETRY_ENABLED: True #是否开启retry

RETRY_TIMES: 5 # 重试次数

RETRY_HTTP_CODECS: 遇到什么http code时需要重试,默认是500,502,503,504,408,其他的,网络链接超时等问题也会自动retry。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值