Python HTTPConnectionPool [Errno 11004]

由于需要进行一些文章的抓取,我开了一个多进程的Pool,相信大家这个应该是了解的,可是后面遇见了两种问题,题目所描述的只是我认为比较重要的一点。

第一种HTTPConnectionPool

[Errno -3] Temporary failure in name resolution
关于这种问题其实就是说明你的抓取速度太快了,并且你的requests连接并没有关闭,不要害怕是被封。这种情况只需要添加一个timeout和关闭一下requests即可,代码如下。
response = requests.get(url, headers={'Connection': 'close'}, timeout=10)

第二种HTTPConnecitonPool

[Errno 11004] getaddrinfo failed
这种问题其实就是在上述问题的一种增强版,也就是说刚才你改好了代码,发现可以运行了,但是运行着运行着又断了,这种时候是说明你的速度达到了Pool的limit,应该把每次请求关闭,然后下一次请求就不会去占用Pool里面的资源了,解决方法便是将你要返回的内容赋值给一个变量然后关闭请求再返回那个变量,代码如下。
response.encoding = 'utf-8'
        if response.status_code == 200:
            time.sleep(1)
            content = response.text
            response.close()
            return content
        return None
这里说的主要是多进程里面使用Pool可能遇见的一些问题,不喜勿喷,如果有什么不正确的地方也希望大家指出来,谢谢。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值