python网络爬虫实战教学——urllib的使用（2）

最新推荐文章于 2024-04-30 22:38:55 发布

i阿极

最新推荐文章于 2024-04-30 22:38:55 发布

阅读量9.1k

点赞数 18

分类专栏： python网络爬虫实战教学文章标签： python 爬虫开发语言 urllib

本文链接：https://blog.csdn.net/AOAIYI/article/details/136876186

版权

python网络爬虫实战教学专栏收录该内容

8 篇文章 2 订阅

订阅专栏

本文介绍了Python中urllib库的error模块，特别是URLError和HTTPError异常处理，以及urlparse和urlunparse函数在URL解析和构造中的应用，帮助读者理解如何在网络爬虫中处理请求错误并确保程序稳定运行。

摘要由CSDN通过智能技术生成

在这里插入图片描述

专栏导读

✍ 作者简介：i阿极，CSDN 数据分析领域优质创作者，专注于分享python数据分析领域知识。

✍ 本文录入于《python网络爬虫实战教学》，本专栏针对大学生、初级数据分析工程师精心打造，对python基础知识点逐一击破，不断学习，提升自我。
✍ 订阅后，可以阅读《python网络爬虫实战教学》中全部文章内容，包含python基础语法、数据结构和文件操作，科学计算，实现文件内容操作，实现数据可视化等等。
✍ 其他专栏：《数据分析案例》，《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍

1、前言

❓我们已经了解了如何发送请求，但是在网络不好的情况下，如果出现了异常，该怎么办呢?
这时要是不处理这些异常，程序很可能会因为报错而终止运行，所以异常处理还是十分有必要的。
urllib 库中的 error 模块定义了由 request 模块产生的异常。当出现问题时，request 模块便会抛出 error 模块中定义的异常。

2、URLError

URLError 类来自urllib库的error模块,继承自0SError类,是error 异常模块的基类,由request模块产生的异常都可以通过捕获这个类来处理。它具有一个属性 reason，即返回错误的原因
下面用一个实例来看一下:

from urllib import request, error
try:
    response =request.urlopen('https://cuiqingcai.com/404')
except error.URLError as e:
    print(e.reason)

我们打开了一个不存在的页面，照理来说应该会报错，但是我们捕获了URLError 这个异常，
运行结果如下:

Not Found

程序没有直接报错，而是输出了错误原因，这样可以避免程序异常终止，同时异常得到了有效处理。

3、HTTPError

HTTPError 是URLError的子类,专门用来处理HTTP请求错误，例如认证请求失败等。它有如下3个属性。

code:返回 HTTP状态码，例如 404 表示网页不存在，500表示服务器内部错误等。
reason:同父类一样，用于返回错误的原因。
headers:返回请求头。

下面我们用几个实例来看看:

from urllib import request, error
try:
    response =request.urlopen('https://cuiqingcai.com/404')
except error.HTTPError as e:
    print(e.reason,e.code, e.headers, sep='\n')

4、urlparse

该方法可以实现URL的识别和分段,这里先用一个实例来看一下:

from urllib.parse import urlparse
result=urlparse('https://www.baidu.com/index.html;user?id=5#comment')
print(type(result))
print(result)

这里我们利用urlparse方法对—个URL进行了解析,然后输出了解析结果的类型以及结果本身。
运行结果如下:

<class 'urllib.parse.ParseResult'>
ParseResult(scheme='https', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

可以看到，解析结果是一个ParseResult类型的对象,包含6部分,分别是scheme、netloc、path、params、query 和fragment。

再观察一下上述实例中的 URL:
https://www.baidu.com/index.html;user?id=5#comment

可以发现，urlparse 方法在解析URL时有特定的分隔符。例如://前面的内容就是 scheme，代表协议。第一个/符号前面便是netloc，即域名;后面是path，即访问路径。分号;后面是params，代表参数。问号?后面是查询条件query，一般用作GET类型的URL。井号#后面是锚点 fragment,用于直接定位页面内部的下拉位置。

接下来’看—下它的API用法:

urllib.parse.urlparse(urlstring,scheme='',allow_fragments=True)

可以看到，urlparse方法有3个参数。

urlstring:这是必填项，即待解析的 URL。
scheme:这是默认的协议(例如 http 或 https 等 )。如果待解析的 URL 没有带协议信息，就会将这个作为默认协议。
allow_fragments:是否忽略fragment。如果此项被设置为False，那么 fragment 部分就会被忽略，它会被解析为 path、params 或者 query 的一部分，而 fragment 部分为空。

5、urlunparse

有了urlparse 方法，相应就会有它的对立方法urlunparse，用于构造 URL。这个方法接收的参数是一个可选代对象，其长度必须是6，否则会抛出参数数量不足或者过多的问题。

先用一个实例看一下:

from urllib.parse import urlunparse
data =['https','www.baidu.com', 'index.html','user', 'a-6','comment']
print(urlunparse(data))

这样我们就成功实现了URL的构造

https://www.baidu.com/index.html;user?a-6#comment

这里参数 data用了列表类型。当然，也可以用其他类型，例如元组或者特定的数据结构。

📢文章下方有交流学习区！一起学习进步！💪💪💪
📢首发CSDN博客，创作不易，如果觉得文章不错，可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

i阿极

关注

18
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录