爬虫养成记 - urllib2的调试和错误处理

最新推荐文章于 2023-08-09 18:10:40 发布

weixin_33720078

最新推荐文章于 2023-08-09 18:10:40 发布

阅读量97

点赞数

文章标签：爬虫操作系统

原文链接：https://segmentfault.com/a/1190000008226223

版权

urllib2的timeout

timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候，需要设置一个比较长的超时时间。

response = urllib2.urlopen(request, timeout=10)

上述代码设置timeout为10秒。

设置Debug

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

urllib2.urlopen("http://www.zhihu.com")

URLError和HTTPError处理

事实上，并不是所有urllib2发起的请求都能得到服务器的回应。
例如

网络无链接
连接不到服务器
链接不存在
请求的方法不对

等情况都会造成urllib2抛出错误。
urllib2提供了两个Exception用于处理响应的错误。

URLError
URLError是HttpError的父类。上面说到的handlers出错就会抛出URLError。
HTTPError
HTTPError是URLError的子类。用于处理Http相关的错误。

HTTPError除了reson属性外还有code属性。
code属性即http状态码。更多状态码可以阅读：http://www.cnblogs.com/shanyo...

下面我们来展示一下示例代码：

import urllib2

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"
}
request = urllib2.Request("http://blog.csdn.net/cqcre", headers = headers)

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

try:
    response = urllib2.urlopen(request)
    print response.getcode()
except urllib2.HTTPError, e:
    print e.code, e.reason
except urllib2.URLError, e:
    print e.reason

值得注意的是 HTTPError是URLError的子类，因此在捕获Exception的时候需要将子类放在前面避免Exception先被父类捕获。

weixin_33720078

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫养成记 - urllib2的调试和错误处理

urllib2的timeouttimeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候，需要设置一个比较长的超时时间。response = urllib2.urlopen(request, timeout=10)上述代码设置timeout为10秒。设置Debugimport urllib2httpHandler =...
复制链接

扫一扫