scrapy爬虫时HTTPConnectionPool（host:XX）Max retries exceeded with url 解决方法

最新推荐文章于 2024-08-06 11:14:20 发布

weixin_34006965

最新推荐文章于 2024-08-06 11:14:20 发布

阅读量681

点赞数

文章标签： python 爬虫网络

原文链接：https://my.oschina.net/u/3636678/blog/2252735

版权

2019独角兽企业重金招聘Python工程师标准>>>

问题1：爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool（host:XX）Max retries exceeded with url '<requests.packages.urllib3.connection.HTTPConnection object at XXXX>: Failed to establish a new connection: [Errno 99] Cannot assign requested address'
原因：是因为在每次数据传输前客户端要和服务器建立TCP连接，为节省传输消耗，默认为keep-alive，即连接一次，传输多次，然而在多次访问后不能结束并回到连接池中，导致不能产生新的连接
解决：headers中的Connection默认为keep-alive，将header中的Connection一项置为close

headers = {
'Connection': 'close',
}
r = requests.get(url, data=formdata, headers=headers)

参考：https://blog.csdn.net/ZTCooper/article/details/80220063

问题2：爬虫多次访问同一个网站一段时间后会出现错误 HTTPConnectionPool:read time out

原因：具体原因还不清楚，如果有人看到并且了解原因，希望可以留言互相学习。

解决：把原来 requests.get(url, data=formdata, headers=headers, timeout=0.2)中的timeout改为0.3

转载于:https://my.oschina.net/u/3636678/blog/2252735