Python爬虫入门五之URLError异常处理

最新推荐文章于 2024-04-16 15:42:37 发布

haoxuan10

最新推荐文章于 2024-04-16 15:42:37 发布

阅读量385

点赞数

分类专栏： python 文章标签：程序员编程语言 python

本文链接：https://blog.csdn.net/haoxuan10/article/details/103438267

版权

1.URLError
首先解释下URLError可能产生的原因：

网络无连接，即本机无法上网
连接不到特定的服务器
服务器不存在
在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚

import urllib2
 
requset = urllib2.Request('http://www.xxxxx.com')
try:
    urllib2.urlopen(request)
except urllib2.URLError, e:
    print e.reason

我们利用了 urlopen方法访问了一个不存在的网址，运行结果如下：

[Errno 11004] getaddrinfo failed

它说明了错误代号是11004，错误原因是 getaddrinfo failed

2.HTTPError

HTTPError是URLError的子类，在你利用urlopen方法发出一个请求时，服务器上都会对应一个应答对象response，其中它包含一个数字”状态码”。举个例子，假如response是一个”重定向”，需定位到别的地址获取文档，urllib2将对此进行处理。

其他不能处理的，urlopen会产生一个HTTPError，对应相应的状态吗，HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下：

100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。>
101：转换协议在发送完这个响应最后的空行后，

关注

专栏目录