urllib异常处理中HTTPError和URLError混用的注意事项


运行环境:Python 3.6、Pycharm 2017.2


Python中写爬虫程序时,可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法,URLErrorHTTPError


注意事项

如果在urllib.request产生异常时,用HTTPErrorURLError一起捕获异常,那么需要将HTTPError放在URLError的前面,因为HTTPErrorURLError的一个子类。如果URLError放在前面,出现HTTP异常会先响应URLError,这样HTTPError就捕获不到错误信息了。


演示代码:

# -*- coding: utf-8 -*-
# @Time : 2017/9/24 23:11 
# @File : 07_CSDN_Spider_3_2.py 
# @Software: PyCharm
# 本实例代码将HTTPError放在URLError之前,
# 是正确的做法

from urllib import request
from urllib import error

if __name__ == "__main__":
    url = input("Please enter a URL:")
    req = request.Request(url)
    try:
        response = request.urlopen(req)
        # html = response.read().decode('utf-8')
        # print(html)
        print("It's OK!")               # 正常
    except error.HTTPError as error:    # HTTP错误
        print('HTTPError')
        print('ErrorCode: %s' % error.code)
    except error.URLError as error:     # URL错误
        print(error.reason)

运行结果:

# 输入正确url时,以www.baidu.com为例
Please enter a URL:http://www.baidu.com
It's OK!
# 输入一个不存在的域名时
Please enter a URL:http://www.qweqwdsasdx.com
[Errno 11001] getaddrinfo failed
# 输入一个正常的域名,但是不存在的资源时
Please enter a URL:http://www.zhihu.com/AAA.html
HTTPError
ErrorCode: 404

HTTPError放在URLError的后面时:
【图片】
当URL出现异常时,只会抛出一种异常,即URLError

# 如上输入一个不存在的资源URL时,具体应该返回404错误
Please enter a URL:http://www.zhihu.com/AAA.html
Not Found

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值