python爬虫:requests异常requests.exceptions.ConnectionError原因分析及处理

解决方法:

第一种方法:

try:
    response = requests.get(html)
    以下其他运行代码...
except requests.exceptions.ConnectionError:
    r.status_code = "Connection refused"

第二种原因:request的连接数过多而导致Max retries exceeded
在header中不使用持久连接
,在headers中加入以下代码:

'Connection': 'close'

第三种原因:请求速度过快导致程序报错:

import time
try:
    response = requests.get(html)
    以下其他运行代码...
except:
        print("requests speed so high,need sleep!")
        time.sleep(5)
        print("continue...")
        continue

原因总结:

  1. http的连接数超过最大限制,默认的情况下连接是Keep-alive的,所以这就导致了服务器保持了太多连接而不能再新建连接:a.在headers中修改连接;b.增加多个headers,random调用,如:
user_agent=[
        'Mozilla/5.0 (Linux; U; Android 6.0.1; zh-cn; MI NOTE LTE Build/MMB29M) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.146 Mobile Safari/537.36 XiaoMi/MiuiBrowser/8.8.7',
        'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36',
        'Mozilla/5.0 (iPhone; CPU iPhone OS 11_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.0 Mobile/15E148 Safari/604.1',
        'Mozilla/5.0 (iPhone; CPU iPhone OS 10_2_1 like Mac OS X) AppleWebKit/602.4.6 (KHTML, like Gecko) Version/10.0 Mobile/14D27 Safari/602.1',
        'Mozilla/5.0 (Linux; Android 5.1.1; Nexus 5 Build/LMY48B; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.65 Mobile Safari/537.36',
        'Mozilla/5.0 (Linux; U; Android-4.0.3; en-us; Galaxy Nexus Build/IML74K) AppleWebKit/535.7 (KHTML, like Gecko) CrMo/16.0.912.75 Mobile Safari/535.7',
        'Mozilla/5.0 (Linux; U; Android-4.0.3; en-us; Xoom Build/IML77) AppleWebKit/535.7 (KHTML, like Gecko) CrMo/16.0.912.75 Safari/535.7',
        'Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3',
        'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1',
        'Mozilla/5.0 (Linux; Android 4.0; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/59.0.3071.92',
        'Mozilla/5.0 (Linux; Android 6.0.1; SOV33 Build/35.0.D.0.326) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.91 Mobile Safari/537.36',
        'Mozilla/5.0 (Linux; Android 6.0; HUAWEI MLA-AL10 Build/HUAWEIMLA-AL10) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Mobile Safari/537.36',
        'Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36',
        'Mozilla/5.0 (Linux; Android 7.1.1; vivo X20A Build/NMF26X; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/62.0.3202.84 Mobile Safari/537.36 VivoBrowser/5.6.1.1',
        'Mozilla/5.0 (Linux; U; Android 6.0.1; zh-CN; SM-J7108 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.108 UCBrowser/11.9.7.977 Mobile Safari/537.36',
        'Mozilla/6.0 (Linux; Android 8.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.183 Mobile Safari/537.36'
    ]
  1. ip被封,可以设置代理
  2. 程序请求速度过快:time.sleep(m)

参考:Python 爬漫画网下载实例

### 解决 Python Requests 爬虫中的 `ConnectionError` 和 `FileNotFoundError` 当遇到 `requests.exceptions.ConnectionError` 错误时,通常意味着请求过程中出现了连接问题。这可能是由于网络不稳定、目标服务器不可达或本地配置不当等原因造成的。 对于 `ConnectionError: ('Connection aborted.', FileNotFoundError(...))` 这种特定情况,表明在尝试建立连接的过程中找不到指定文件或目录。以下是几种可能的原因及对应的解决方案: #### 1. 检查 URL 的合法性 确保所使用的URL地址正确无误,并且能够正常访问。如果是在读取本地文件作为参数传递给Requests库,则需确认该路径下的确存在相应的资源文件[^2]。 ```python import os url = 'https://example.com/path/to/file' local_file_path = '/path/to/localfile' if not os.path.exists(local_file_path): raise Exception(f"The specified local file does not exist at path {local_file_path}") ``` #### 2. 设置合理的超时时间 有时因为网络延迟或其他因素导致默认的等待时间过短而触发异常。可以通过设置更长一点的timeout来避免这种情况发生。 ```python response = requests.get(url=url, timeout=(connect_timeout, read_timeout)) ``` 其中 connect_timeout 是指发起 TCP 握手的时间限制;read_timeout 则表示接收响应数据的最大允许耗时。 #### 3. 配置代理服务器 如果是通过公司内网或者某些特殊环境上网的话,那么很可能是因为缺少必要的代理设置才引发了此错误。可以按照如下方式为Request对象添加合适的HTTP/HTTPS代理支持: ```python proxies = { "http": "http://your_proxy_address", "https": "http://your_proxy_address" } response = requests.get('https://www.example.com', proxies=proxies) ``` 另外需要注意的是,在使用代理的情况下应该保证其版本兼容性以及协议匹配度(比如 HTTP vs HTTPS)。如果不小心混用了不同类型的代理可能会引起意想不到的问题。 #### 4. 更新依赖包至最新稳定版 部分旧版本可能存在已知漏洞或是与其他组件之间的适配不佳等问题,因此建议定期更新项目中涉及到的所有第三方库到官方推荐的安全补丁级别之上。特别是像Urllib3这样的底层传输层工具更是如此. ```bash pip install --upgrade urllib3 ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值