scrapy下载中间设置

最新推荐文章于 2024-05-16 11:47:28 发布

alwaysPractice

最新推荐文章于 2024-05-16 11:47:28 发布

阅读量1.8w

点赞数

分类专栏：爬虫文章标签： scrapy proxy中间件

本文链接：https://blog.csdn.net/jjjndk1314/article/details/80538285

版权

爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

class ProxyMiddleWare(object):  
    """docstring for ProxyMiddleWare"""  
    def process_request(self,request, spider):  
        '''对request对象加上proxy'''  
        proxy = self.get_random_proxy()  
        print("this is request ip:"+proxy)  
        request.meta['proxy'] = proxy   


    def process_response(self, request, response, spider):  
        '''对返回的response处理'''  
        # 如果返回的response状态不是200，重新生成当前request对象  
        if response.status != 200:  
            proxy = self.get_random_proxy()  
            print("this is response ip:"+proxy)  
            # 对当前reque加上代理  
            request.meta['proxy'] = proxy   
            return request  
        return response  

    def get_random_proxy(self):  
        '''随机从文件中读取proxy'''  
        while 1:  
            with open('G:\\Scrapy_work\\myproxies\\myproxies\\proxies.txt', 'r') as f:  
                proxies = f.readlines()  
            if proxies:  
                break  
            else:  
                time.sleep(1)  
        proxy = random.choice(proxies).strip()  
        return proxy

alwaysPractice

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy下载中间设置

class ProxyMiddleWare(object): """docstring for ProxyMiddleWare""" def process_request(self,request, spider): '''对request对象加上proxy''' proxy = self.get_random_proxy() ...
复制链接

扫一扫