urllib异常处理中HTTPError和URLError混用的注意事项

最新推荐文章于 2022-02-25 15:49:40 发布

Leo-Woo

最新推荐文章于 2022-02-25 15:49:40 发布

阅读量3.5k

点赞数 1

分类专栏： Python 爬虫文章标签： python 异常处理爬虫

本文链接：https://blog.csdn.net/IMW_MG/article/details/78081211

版权

Python 同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

爬虫

15 篇文章 0 订阅

订阅专栏

运行环境:Python 3.6、Pycharm 2017.2

Python中写爬虫程序时，可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。

注意事项

如果在urllib.request产生异常时，用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

演示代码：

# -*- coding: utf-8 -*-
# @Time : 2017/9/24 23:11 
# @File : 07_CSDN_Spider_3_2.py 
# @Software: PyCharm
# 本实例代码将HTTPError放在URLError之前，
# 是正确的做法

from urllib import request
from urllib import error

if __name__ == "__main__":
    url = input("Please enter a URL:")
    req = request.Request(url)
    try:
        response = request.urlopen(req)
        # html = response.read().decode('utf-8')
        # print(html)
        print("It's OK!")               # 正常
    except error.HTTPError as error:    # HTTP错误
        print('HTTPError')
        print('ErrorCode: %s' % error.code)
    except error.URLError as error:     # URL错误
        print(error.reason)

运行结果：

# 输入正确url时，以www.baidu.com为例
Please enter a URL:http://www.baidu.com
It's OK!

# 输入一个不存在的域名时
Please enter a URL:http://www.qweqwdsasdx.com
[Errno 11001] getaddrinfo failed

# 输入一个正常的域名，但是不存在的资源时
Please enter a URL:http://www.zhihu.com/AAA.html
HTTPError
ErrorCode: 404

当HTTPError放在URLError的后面时：
【图片】
当URL出现异常时，只会抛出一种异常，即URLError

# 如上输入一个不存在的资源URL时，具体应该返回404错误
Please enter a URL:http://www.zhihu.com/AAA.html
Not Found

Leo-Woo

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
urllib异常处理中HTTPError和URLError混用的注意事项

运行环境:Python 3.6、Pycharm 2017.2Python中写爬虫程序时，可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。注意事项如果在urllib.request产生异常时，用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面
复制链接

扫一扫