python爬虫之urllib(二)

最新推荐文章于 2022-05-13 19:14:05 发布

aqiu12316

最新推荐文章于 2022-05-13 19:14:05 发布

阅读量363

点赞数

分类专栏： python

python 专栏收录该内容

24 篇文章 11 订阅

订阅专栏

urllib.error可以接收urllib.request产生的异常，urllib.error有三个方法，如下：

URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如200状态码，表示请求成功，再比如常见的404错误等。

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

url = "http://www.iloveyou.com/"
req = request.Request(url)
try:
    response = request.urlopen(req)
    html = response.read().decode('utf-8')
    print(html)
except error.URLError as e:
    print(e.reason)

我们可以看到如下运行结果：

[Errno 11002] getaddrinfo failed 获取地址信息失败。

再看下HTTPError异常

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
    # html = responese.read()
except error.HTTPError as e:
    print(e.code)

运行结果：

404 虽然链接服务器没有问题，但是所请求的html资源不存在。

URLError和HTTPError混合使用，值得注意的一点是，如果想用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
except error.HTTPError as e:
    print(e.code)
except error.URLError as e:
    print(e.reason)

也可以使用hasattr函数判断URLError含有的属性，如果含有reason属性表明是URLError，如果含有code属性表明是HTTPError

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
except error.URLError as e:
    if hasattr(e, 'code'):
        print("HTTPError")
        print(e.code)
    elif hasattr(e, 'reason'):
        print("URLError")
        print(e.reason)

下载函数的异常 urllib.error.ContentTooShortError（msg，content）当urlretrieve（）函数检测到下载的数据量小于预期量（由Content-Length头指定）时引发此异常。内容属性存储下载的（以及应该截断的）数据。

aqiu12316

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之urllib(二)

urllib.error可以接收urllib.request产生的异常，urllib.error有三个方法，如下：URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如200状态码，表示请求成功，再比如常见的404错误等。# -*- coding:...
复制链接

扫一扫

专栏目录