urllib中的URLError与HTTPError的异常处理

最新推荐文章于 2023-10-05 19:56:35 发布

Ren_ger

最新推荐文章于 2023-10-05 19:56:35 发布

阅读量6k

点赞数

本文链接：https://blog.csdn.net/Ren_ger/article/details/81105329

版权

一、URLError造成原因

本地网络未连接
服务器不存在
- urlopen error [errno 10060]
- 1.url 方限制了访问次数，防止过快
  2.自己的网络有问题。
  1）断网情况
  2）使用的网络访问外网受限
  解决方法，改用更高级点的 urllib2 packet, 设置网络代理。
连接不到特点的服务器
- 404(没有该网址)

既然异常处理就会使用到try/except，下面简单介绍try/except捕获异常

二、try/except异常捕获

使用try/except来捕捉异常

检测try语句块中的错误，从而让except语句捕获异常信息并且处理，当然如果不想在异常发生使结束程序，可以只用try来捕获

三、简单的URLError

比如下面是我在本机断网情况下进行url请求

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/31
from urllib import error 
from urllib import request

req=request.Request('http://blog.csdksdfjs.net/dsd')
try:
    request.urlopen(req)
except error.URLError as e:
    print(e)  #输出错误原因

四、HTTPError（是URLError的子类）

利用urlopen方法发出一个请求时，服务器上都对应一个应答对象，其中包含一个数字（状态码），若urlopen不能处理，urlopen会产生一个相应的HTTPError对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态码，如下图

100：继续  客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。
101： 转换协议  在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。
102：继续处理   由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。
200：请求成功      处理方式：获得响应的内容，进行处理
201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到    处理方式：爬虫中不会遇到
202：请求被接受，但处理尚未完成    处理方式：阻塞等待
204：服务器端已经实现了请求，但是没有返回新的信 息。如果客户是用户代理，则无须为此更新自身的文档视图。    处理方式：丢弃
300：该状态码不被HTTP/1.0的应用程序直接使用， 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源    处理方式：重定向到分配的URL
302：请求到的资源在一个不同的URL处临时保存     处理方式：重定向到临时的URL
304：请求的资源未更新     处理方式：丢弃
400：非法请求     处理方式：丢弃
401：未授权     处理方式：丢弃
403：禁止     处理方式：丢弃
404：没有找到     处理方式：丢弃
500：服务器内部错误  服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。
501：服务器无法识别  服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。
502：错误网关  作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。
503：服务出错   由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

urlopen error [errno 10060]解决办法------######

导致错误原因：


1.url 方 限制了访问次数，防止过快
2.自己的网络有问题。 
     1）断网情况
     2）使用的网络访问外网受限
     解决方法，改用更高级点的 urllib2 packet, 设置网络代理。

from urllib import request
try:
    url = "http://codeforces.com/contests"
    proxy = 'proxy.xxxx.com:8080'  #请根据自己的具体情况设置
    opener = request.build_opener( request.ProxyHandler({'http':proxy}))
    
    response= opener.urlopen(url)
    print(response.read())

except Exception, Argument:
    print("Error", Argument)

HTTPError

因为URLError是HTTPError的父类，所以在捕获异常的时候可以先找子类是否异常，如果子类找不到，再找父类即可

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/31
from urllib import error
from urllib import request

req = request.Request('http://www.douban.com/w_linuxsaidfefefe')
try:
    request.urlopen(req)
except error.HTTPError as e:
    print（e）
except error.URLError as e:
    print（e）
else:
    print（"OK"）

先找子类中是否有HTTP错误，如果没有再找父类URL
这里我找了豆瓣中不存在一个页面来请求，输出如下（如果是存在的且没错误，即输出ok）

这里写图片描述

Ren_ger

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
urllib中的URLError与HTTPError的异常处理

一、URLError造成原因本地网络未连接服务器不存在 urlopen error [errno 10060] 1.url 方限制了访问次数，防止过快 2.自己的网络有问题。 1）断网情况 2）使用的网络访问外网受限解决方法，改用更高级点的 urllib2 packet, 设置网络代理。连接不到特点的服务器 ...
复制链接

扫一扫