Scrapy 关于代理IP池的坑

最新推荐文章于 2021-01-27 19:05:58 发布

weixin_34112208

最新推荐文章于 2021-01-27 19:05:58 发布

阅读量338

点赞数

文章标签： python

原文链接：https://my.oschina.net/zhu97/blog/1925812

版权

为什么80%的码农都做不了架构师？>>>

在网上的哥们上抄的获取代理池，但是一直使用都报告失去响应，以为一直是代理不能用，其实是在我们的middlewares的中间件ProxyMiddleWare的问题(我的版本是python3.7，Scrapy1.5.1)贴出改后的代码

class ProxyMiddleWare(object):
    """docstring for ProxyMiddleWare"""
    def process_request(self,request, spider):
        '''对request对象加上proxy'''
        proxy = self.get_random_proxy()
        print("this is request ip:"+proxy)
        request.meta['http_proxy'] = proxy


    def process_response(self, request, response, spider):
        '''对返回的response处理'''
        # 如果返回的response状态不是200，重新生成当前request对象
        if response.status != 200:
            proxy = self.get_random_proxy()
            print("this is response ip:"+proxy)
            # 对当前reque加上代理
            request.meta['http_proxy'] = proxy
            return request
        return response

    def get_random_proxy(self):
        '''随机从文件中读取proxy'''
        path1=os.path.abspath('.')   #表示当前所处的文件夹的绝对路径
        while 1:
            with open(path1+'\\crawler\\proxies.txt', 'r') as f:
                proxies = f.readlines()
            if proxies:
                break
            else:
                time.sleep(1)
        proxy = random.choice(proxies).strip()
        return proxy

重点就在对当前的request加代理这里

request.mata一定是这个样子的

request.meta['http_proxy'] = proxy

原来是request.meta['proxy'] = proxy就会一直有问题，什么主机失去响应啊什么的

转载于:https://my.oschina.net/zhu97/blog/1925812

weixin_34112208

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34112208 CSDN认证博客专家 CSDN认证企业博客

码龄9年

137: 原创

-: 周排名

217万+: 总排名

116万+: 访问

: 等级

7419: 积分

6194: 粉丝

210: 获赞

19: 评论

1328: 收藏

私信

关注

热门文章

最新评论

Nginx支持Socket转发过程详解
七夜魔君2: 服务端的响应报文客户端能收到吗？我这边测试，客户端收不到服务端的响应报文
Traceroute（路由追踪）的原理及实现
2302_78727920: 代码用的啥程序运行的啊
Python3.6实现12306火车票自动抢票，并短信和邮件通知
努力学习的小趴菜: 想问下有试例吗？
检测zookeeper和kafka是否正常
张叫兽的技术研究院: 直接用zkServer.sh status是不是更直接呢？
为什么离不开 Stackoverflow
普通网友: 近期遇到技术问题在各个技术社区找方案，偶然发现云+社区有同步Stack Overflow的技术问答，并将Stack Overflow的内容翻译成中文，例如这些：https://cloud.tencent.com/developer/ask/sof/296970、https://cloud.tencent.com/developer/ask/sof/304956 近期体验了下，翻译的质量还行，好像是用了专门的翻译技术，总体上比谷歌翻译好很多。对于国内开发者来说简直是福音，毕竟中文阅读起来更容易理解。如果遇到翻译不准确的，还可以查看英文原文对照着看，能帮助开发者提升不少效率，大家可以体验下。不过现在云+社区好像没有单独上线Stack Overflow中文内容的板块，大家想体验可以直接在社区站内（社区站内四个字插入超链接：https://cloud.tencent.com/developer/search/ask-%E5%A6%82%E4%BD%95%E5%9C%A8%E7%B1%BB%E4%B8%AD%E4%BB%8E）用中文搜索技术问题试试。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。