【Python3 爬虫学习笔记】基本库的使用 4 —— 使用urllib

3. 解析链接

urllib库还提供了parse模块,它定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理:file、ftp、gopher、hdl、http、https、imap、mailto、mms、news、nntp、prospero、rsync、rtspu、sftp、sip、sips、snews、svn、svn+ssh、telnet和wais。

3.1 urlparse()

该方法可以实现URL的识别和分段:

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result),result)

这里利用urlparse()方法进行了一个URL的解析,首先,输出了解析结果的类型,然后将结果也输出出来。
运行结果:
这里写图片描述
可以看出,返回结果是一个ParseResult类型的对象,它包含6个部分,分别是scheme、netloc、path、params、query和fragment。

  • : // 前面的就是scheme,代表协议;
  • 第一个/符号前面便是netloc,即域名,后面是path,即访问路径;
  • 分号;前面是params,代表参数;
  • 问号?后面是查询条件query,一般用作GET类型的URL;
  • 井号#后面是锚点,用于直接定位页面内部的下来位置。

一个标准的URL链接格式如下:

scheme://netloc/path;params?query#fragment

urlparse()的API用法:

urllib.parse.urlparse(urlstring, scheme="", allow_fragments=True)
  • urlstring:这是必填项,即待解析的URL。
  • scheme:它是默认的协议(比如http或https等)。假如这个链接没有带协议信息,会将这个作为默认的协议。
  • allow_fragments:即是否忽略fragment。如果它被设置为False,fragment部分会被忽略,它会被解析为path、parameters或者query的一部分,而fragment部分为空。
    返回结果ParseResult实际上是一个元组,可以用索引顺序来获取,也可以用属性名获取。

3.2 urlunparse()

该方法实现URL的构造。它接收的参数是一个可迭代对象,但它的长度必须是6,否则会抛出参数数量不足或者过多的问题。

from urllib.parse import urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']
print(urlunparse(data))
#运行结果
http://www.baidu.com/index.html;user?a=6#comment

3.3 urlsplit()

这个方法和urlparse()方法非常相似,只不过它不再单独解析params这一部分,只返回5个结果。

3.4 urlunsplit()

与urlunparse()类似,它也是将连接各个部分组合成完整连接的方法,传入的参数也是一个可迭代对象。

3.5 urljoin()

有了urlunparse()和urlunsplit()方法,我们可以完成链接的合并,不过前提必须要有特定长度的对象,链接的每一部分都要清晰分开。
此外,生成链接还有另一个方法,那就是urljoin()方法。提供一个base_url(基础链接)作为第一个参数,将新的链接作为第二个参数,该方法会分析base_url的scheme、netloc和path这三个内容并对新链接缺失的部分进行补充,最后返回结果。

3.6 urlencode()

from urllib.parse import urlencode

params = {'name':'germey',
    'age':'22'
}
base_url = 'http://www.baidu.com?'
url = base_url + urlencode(params)
print(url)
# 运行结果
http://www.baidu.com?name=germey&age=22

3.7 parse_qs()

有了序列化,必然就有反序列化。如果我们有一串GET请求参数,利用parse_qs()方法,就可以将它转回字典。
parse_qsl()方法,可以将参数转化为元组的列表。

from urllib.parse import parse_qs

query = 'name=germey&age=22'
print(parse_qs(query))
#结果
{'name':['germey'], 'age':['22']}

3.8 quote()

该方法可以将内容转化为URL编码的格式。URL中带中文参数时,有时可能会导致乱码的问题,此时用这个方法可以将中文字符转换为URL编码:

from urllib.parse import quote

keyword = '壁纸'
url = 'https://www.baidu.com/?wd=' + quote(keyword)
print(url)
#运行结果
https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8

3.9 unquote()

有了quote()方法,当然还有unquote()方法,它可以进行URL解码,示例如下:

from urllib.parse import unquote

url = 'https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8'
print(unquote(url))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值