python爬虫之urllib(二)

urllib.error可以接收urllib.request产生的异常,urllib.error有三个方法,如下:

URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP的响应会返回一个状态码,根据这个HTTP状态码,我们可以知道我们的访问是否成功。例如200状态码,表示请求成功,再比如常见的404错误等。

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

url = "http://www.iloveyou.com/"
req = request.Request(url)
try:
    response = request.urlopen(req)
    html = response.read().decode('utf-8')
    print(html)
except error.URLError as e:
    print(e.reason)

我们可以看到如下运行结果:

[Errno 11002] getaddrinfo failed       获取地址信息失败。

再看下HTTPError异常

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
    # html = responese.read()
except error.HTTPError as e:
    print(e.code)

运行结果:

404     虽然链接服务器没有问题,但是所请求的html资源不存在。

URLError和HTTPError混合使用,值得注意的一点是,如果想用HTTPError和URLError一起捕获异常,那么需要将HTTPError放在URLError的前面,因为HTTPError是URLError的一个子类。如果URLError放在前面,出现HTTP异常会先响应URLError,这样HTTPError就捕获不到错误信息了。

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
except error.HTTPError as e:
    print(e.code)
except error.URLError as e:
    print(e.reason)

 也可以使用hasattr函数判断URLError含有的属性,如果含有reason属性表明是URLError,如果含有code属性表明是HTTPError

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

#一个不存在的资源
url = "http://www.douyu.com/Jack_Cui.html"
req = request.Request(url)
try:
    responese = request.urlopen(req)
except error.URLError as e:
    if hasattr(e, 'code'):
        print("HTTPError")
        print(e.code)
    elif hasattr(e, 'reason'):
        print("URLError")
        print(e.reason)

下载函数的异常 urllib.error.ContentTooShortError(msg,content) 当urlretrieve()函数检测到下载的数据量小于预期量(由Content-Length头指定)时引发此异常。内容属性存储下载的(以及应该截断的)数据。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫教程urllib主要是介绍了Python爬虫技术中的urllib库的基础用法。该教程详细讲解了urllib库的各种功能和方法,包括发送请求、处理响应、设置请求头、处理异常等。这个教程对于想要学习和使用Python进行网络爬虫的人来说具有很大的参考价值。 同时,该教程也提到了一些常见的问题和解决方法,例如模拟超时的处理方法。在网络爬虫中,有时候我们长时间无法访问一个页面,可能是因为网速有限或者被发现我们是一个爬虫。针对这种情况,可以使用timeout参数来设置超时时间,如果超过了设定的时间仍无法获取响应,则会抛出URLError异常,我们可以在异常处理中对超时进行相应的处理。 总的来说,Python爬虫教程urllib是一个很好的学习资源,适合想要入门或深入学习Python爬虫技术的人使用。它提供了详细的教程和实例,可以让你快速上手和掌握使用urllib库进行网络爬虫的基本知识和技巧。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python爬虫urllib基础用法教程](https://download.csdn.net/download/weixin_38656741/12858843)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python爬虫 —— urllib库的使用(get/post请求+模拟超时/浏览器)](https://blog.csdn.net/qq_50587771/article/details/123840479)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python爬虫urllib3的使用示例](https://download.csdn.net/download/weixin_38681147/12867742)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值