python爬虫之URLError、HTTPError以及requests中的SSLError

最新推荐文章于 2024-04-26 23:56:04 发布

原创最新推荐文章于 2024-04-26 23:56:04 发布 · 2.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#URLError #HTTPError #SSLError #requests报错 #python

Web Crawler 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了Python爬虫中常见的URLError、HTTPError及SSLError错误类型及其产生原因。URLError通常由网络问题引起，HTTPError则与服务器响应状态码有关，而SSLError涉及HTTPS请求时的证书验证问题。

python爬虫时，我们在使用urlopen()或者opener.open()发出请求时，如果这个请求无法得到处理，那么，就会产生错误。常见的错误有URLError、HTTPError以及requests中的SSLError，下面我们来一一结束。

URLError

产生原因：

1，没有网络连接

2，服务器连接失败

3，找不到指定的服务器

我们可以使用try....except....来捕获异常,如下所示：

结果如下：

<urlopen error [Errno 8] nodename nor servname provided, or not known>

原因是找不到指定的服务器

HTTPError

HTTPError是URLError的子类，我们在发送http请求时，服务器上都会有一个应答对象，其中，会包含一个响应状态码。如果不能处理的，会产生一个HTTPError，对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态。其中，100-299表示成功，以3开头的表示重定向，400-599表示失败。

结果为：

404
HTTP Error 404: Not Found

表示服务器无法找到请求，出现这种结果的原因，要么url错误，要么ip被封！

SSLError

requests请求时，如果对方网站是https的，往往需要验证证书。如果SSL证书验证不通过，或者不信任服务器的安全证书，则会报出SSLError。如12306网站。

此时，如果我们又想访问此网站，又不想验证，应该怎么办？我们可以跳过证书的验证。

博客等级

码龄8年

31
原创

70
点赞

197
收藏

24
粉丝

关注

私信

分类专栏

python 16篇
HTTP 1篇
Web Crawler 8篇
HTML 2篇
Linux 1篇
Software 1篇
MySQL 2篇
Network 1篇
Machine learning 4篇

展开全部收起

上一篇：: python爬虫之如何随机更换User-Agent

下一篇：: Git-2.17版本Windows环境系统下安装教程

最新评论

python爬虫之如何随机更换User-Agent
虫本初阳: 谢谢分享！想请教下，“注意，有些网站可能会根据user-agent来封IP，也就是说他们会根据同一个IP下，如果是很多个不同user-agent在访问，那么，此时，他们就会判定为爬虫！”这句话中的ip指的是谁的ip呢？是自己微博的ip吗，可是程序在编写的时候好像没有写自己微博的ip呀？又或者是自己主机的ip 求赐教

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。