[Python3.x]网络爬虫（二）：异常的处理和HTTP状态码的分类

最新推荐文章于 2021-02-21 06:28:58 发布

albert1828

最新推荐文章于 2021-02-21 06:28:58 发布

阅读量1.8k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/zhangyaping123/article/details/72757791

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.URLError
通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。
这种情况下，异常同样会带有”reason”属性，它是一个tuple（可以理解为不可变的数组），
包含了一个错误号和一个错误信息。

import urllib.request

req = urllib.request.Request('http://www.lovejing.com')
try:
    urllib.request.urlopen(req)
except urllib.error.URLError as e:
    print(e.reason)

2.HTTPError
状态码:
200：请求成功处理方式：获得响应的内容，进行处理
201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到
202：请求被接受，但处理尚未完成处理方式：阻塞等待
204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃
300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL
302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL
304 请求的资源未更新处理方式：丢弃
400 非法请求处理方式：丢弃
401 未授权处理方式：丢弃
403 禁止处理方式：丢弃
404 没有找到处理方式：丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求处理方式：丢弃
因为默认的处理器处理了重定向(300以外号码)，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

import urllib.request

req = urllib.request.Request('http://bbs.csdn.net/lovejing')
try:
    urllib.request.urlopen(req)
except urllib.error.URLError as e:
    if hasattr(e,'code'):
        print(e.code)
    elif hasattr(e,'reason'):
        print(e.reason)

else:
    print('No exception')