鱼c笔记——Python爬虫（五）：访问网页的异常处理

最新推荐文章于 2021-08-05 17:52:22 发布

在到处之间找我

最新推荐文章于 2021-08-05 17:52:22 发布

阅读量2.8k

点赞数

分类专栏： # Python学习笔记文章标签： Python爬虫访问网页的异常处理

本文链接：https://blog.csdn.net/sinat_41104353/article/details/79296541

版权

本文介绍了Python爬虫中访问网页时可能遇到的URLError和HTTPError异常，包括它们的原因、处理方式及HTTP状态码的含义。在处理HTTPError时，可以利用其返回的响应对象进行操作，例如read()、geturl()和info()方法。文章推荐了两种异常处理的编写方式，并指出第二种方式更为推荐。

摘要由CSDN通过智能技术生成

访问网页的异常处理。

当我们的urlopen() 方法无法处理一个响应的时候，就会引发URLError异常。通常在没有网络连接或者对方服务器压根不存在的时候，都会引发这个异常。同时URL会伴随一个reason的属性，用于包含一个由错误编码和错误信息组成的元组。

>>> import urllib.request
>>> import urllib.error  #URLError存在的模块

>>> req = urllib.request.Request('http://412-dfas.com')  #尝试访问一个不存在的链接

>>> try:
	urllib.request.urlopen(req)
except urllib.error.URLError  as e:
	print(e.reason)

	
[Errno 11004] getaddrinfo failed

HTTPError：HTTPError是URLError的一个子类，服务器上每一个HTTP的响应都会返回一个状态码，如404。有时候状态码会指出服务器无法完成的请求类型，一般情况下，Python会帮我们处理一部分这样的请求，例如说响应重定向，要求客户端从别的地方获取文档，urllib模块会自动帮我们处理响应。但是有一些情况是无法处理的。比如404问题，需要人工过滤。

HTTP状态码大全：http://bbs.fishc.com/thread-103840-1-1.html

ps. 400~499表示问题来自客户端，问题是自己。500~599表示问题来自服务器，问题与我们无关。

当出现一个错误的时候，服