scrapy中使用 IP 代理

在 scrapy 中使用 ip 代理需要借助中间件的功能

首先在settings 中设置好中间件,中间件优先级数字越小越先被执行

'DOWNLOADER_MIDDLEWARES':{      
'spider.spider.middlewares.ProxyMiddleWare':542,
'spider.spider.middlewares.SelenuimDownloaderMiddleware':543
}

然后编写中间件,拦截请求设置代理

class ProxyMiddleWare(object):
    
    def process_request(self, request, spider):
        
        """ 对 request 加上proxy"""
        proxy = RedisClient().pop_proxy().decode('utf-8')
        print('---------this is request ip ----------:'+ proxy)
        request.meta['proxy'] = proxy


    def process_response(self, request, response, spider):
        
        """ 对返回的 response 处理"""

        # 如果返回的 response 状态不是 200, 重新生成当前的 request对象
        if response.status != 200:
            proxy = RedisClient().pop_proxy().decode('utf-8')
            print('this is response ip:'+ proxy)
            # 对当前 request 加上代理
            return request

        return response 

 

转载于:https://www.cnblogs.com/jcjc/p/11125341.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值