urllib.error可以接收urllib.request产生的异常,urllib.error有三个方法,如下:
URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP的响应会返回一个状态码,根据这个HTTP状态码,我们可以知道我们的访问是否成功。例如200状态码,表示请求成功,再比如常见的404错误等。
# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error
url = "http://www.iloveyou.com/"
req = request.Request(url)
try:
response = request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
except error.URLError as e:
print(e.reason)
我们可以看到如下运行结果:
[Errno 11002] getaddrinfo failed 获取地址信息失败。
再看下HTTPError异常
# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error
#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
responese = request.urlopen(req)
# html = responese.read()
except error.HTTPError as e:
print(e.code)
运行结果:
404 虽然链接服务器没有问题,但是所请求的html资源不存在。
URLError和HTTPError混合使用,值得注意的一点是,如果想用HTTPError和URLError一起捕获异常,那么需要将HTTPError放在URLError的前面,因为HTTPError是URLError的一个子类。如果URLError放在前面,出现HTTP异常会先响应URLError,这样HTTPError就捕获不到错误信息了。
# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error
#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
responese = request.urlopen(req)
except error.HTTPError as e:
print(e.code)
except error.URLError as e:
print(e.reason)
也可以使用hasattr函数判断URLError含有的属性,如果含有reason属性表明是URLError,如果含有code属性表明是HTTPError
# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error
#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
responese = request.urlopen(req)
except error.URLError as e:
if hasattr(e, 'code'):
print("HTTPError")
print(e.code)
elif hasattr(e, 'reason'):
print("URLError")
print(e.reason)
下载函数的异常 urllib.error.ContentTooShortError(msg,content) 当urlretrieve()函数检测到下载的数据量小于预期量(由Content-Length头指定)时引发此异常。内容属性存储下载的(以及应该截断的)数据。