python爬虫学习第四天_jiajia971024-CSDN博客

本文链接：https://blog.csdn.net/qq_34194478/article/details/76284183

今天的内容就比较轻松了，主要是urllib,error这个库的使用，使用里面现有的各种（只敲了两种）异常捕获类可以帮助我们分析向服务器发送请求后可能会出现的异常

首先是URLError类，这个类是许多异常类的父类它继承自OSError，是urllib.error异常类的基类，由urllib.request产生的异常都可以通过捕获这个类来处理。

练习1 error的简单演示

# from urllib import request,error

# try:
#   response = request.urlopen('http://cuiqingcai.com/index.htm')
# except error.URLError as e:
#   print(e.reason)

运行后会输出结果NOT FOUND

紧接着学习了HTTPError类，这个类是URLError的子类，主要专门用来处理HTTP请求错误，比如认证请求失败等等。
它有三个属性。
code，返回HTTP状态码，比如404网页不存在，500服务器内部错误等等。
reason，同父类一样，返回错误的原因。
headers，返回HTTP响应头。

练习2 HTTPError

# from urllib import request,error

# try:
#   response = request.urlopen('http://cuiqingcai.com/index.htm')
# except error.HTTPError as e:
#   print(e.reason,e.headers,e.code)

既然HTTPError是URLError的子类，那么我们顺理成章的可以先捕获子，再捕获父

练习3 HTTPError 是URLError的子类

# from urllib import request,error

# try:
#   response = request.urlopen('http://baidu.com')
# except error.HTTPError as e:
#   print(e.code,e.headers,e.reason)
# except error.URLError as e:
#   print(e.reason)
# else:
#   print('Request Succeed')

最后还有一个练习，关于URLError的返回类型，它不一定是字符串

练习4 URLError 返回的不一定是字符串，还有可能是类型

# import socket
# import urllib.request
# import urllib.error

# try:
#   response = urllib.request.urlopen('https://www.baidu.com',timeout = 0.01)
# except urllib.error.URLError as e:
#   print(type(e.reason))
#   if isinstance(e.reason,socket.timeout):
#       print('TIME OUT!')

今天内容不多，最近挺忙的，每天不管多少，一定都要看一点点，坚持打卡！