【Python3 爬虫学习笔记】基本库的使用 4 —— 使用urllib

最新推荐文章于 2022-05-05 09:46:17 发布

htsait4113

最新推荐文章于 2022-05-05 09:46:17 发布

阅读量300

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

82 篇文章 2 订阅

订阅专栏

3. 解析链接

urllib库还提供了parse模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、mms、news、nntp、prospero、rsync、rtspu、sftp、sip、sips、snews、svn、svn+ssh、telnet和wais。

3.1 urlparse()

该方法可以实现URL的识别和分段：

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result),result)

这里利用urlparse()方法进行了一个URL的解析，首先，输出了解析结果的类型，然后将结果也输出出来。
运行结果：
这里写图片描述
可以看出，返回结果是一个ParseResult类型的对象，它包含6个部分，分别是scheme、netloc、path、params、query和fragment。

: // 前面的就是scheme，代表协议；
第一个/符号前面便是netloc，即域名，后面是path，即访问路径；
分号；前面是params，代表参数；
问号？后面是查询条件query，一般用作GET类型的URL；
井号#后面是锚点，用于直接定位页面内部的下来位置。

一个标准的URL链接格式如下：

scheme://netloc/path;params?query#fragment

urlparse()的API用法：

urllib.parse.urlparse(urlstring, scheme="", allow_fragments=True)

urlstring:这是必填项，即待解析的URL。
scheme：它是默认的协议（比如http或https等）。假如这个链接没有带协议信息，会将这个作为默认的协议。
allow_fragments：即是否忽略fragment。如果它被设置为False，fragment部分会被忽略，它会被解析为path、parameters或者query的一部分，而fragment部分为空。
返回结果ParseResult实际上是一个元组，可以用索引顺序来获取，也可以用属性名获取。

3.2 urlunparse()

该方法实现URL的构造。它接收的参数是一个可迭代对象，但它的长度必须是6，否则会抛出参数数量不足或者过多的问题。

from urllib.parse import urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']
print(urlunparse(data))
#运行结果
http://www.baidu.com/index.html;user?a=6#comment

3.3 urlsplit()

这个方法和urlparse()方法非常相似，只不过它不再单独解析params这一部分，只返回5个结果。

3.4 urlunsplit()

与urlunparse()类似，它也是将连接各个部分组合成完整连接的方法，传入的参数也是一个可迭代对象。

3.5 urljoin()

有了urlunparse()和urlunsplit()方法，我们可以完成链接的合并，不过前提必须要有特定长度的对象，链接的每一部分都要清晰分开。
此外，生成链接还有另一个方法，那就是urljoin()方法。提供一个base_url(基础链接)作为第一个参数，将新的链接作为第二个参数，该方法会分析base_url的scheme、netloc和path这三个内容并对新链接缺失的部分进行补充，最后返回结果。

3.6 urlencode()

from urllib.parse import urlencode

params = {'name':'germey',
    'age':'22'
}
base_url = 'http://www.baidu.com?'
url = base_url + urlencode(params)
print(url)
# 运行结果
http://www.baidu.com?name=germey&age=22

3.7 parse_qs()

有了序列化，必然就有反序列化。如果我们有一串GET请求参数，利用parse_qs()方法，就可以将它转回字典。
parse_qsl()方法，可以将参数转化为元组的列表。

from urllib.parse import parse_qs

query = 'name=germey&age=22'
print(parse_qs(query))
#结果
{'name':['germey'], 'age':['22']}

3.8 quote()

该方法可以将内容转化为URL编码的格式。URL中带中文参数时，有时可能会导致乱码的问题，此时用这个方法可以将中文字符转换为URL编码：

from urllib.parse import quote

keyword = '壁纸'
url = 'https://www.baidu.com/?wd=' + quote(keyword)
print(url)
#运行结果
https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8

3.9 unquote()

有了quote()方法，当然还有unquote()方法，它可以进行URL解码，示例如下：

from urllib.parse import unquote

url = 'https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8'
print(unquote(url))

htsait4113

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录