python学习笔记——urllib库中的parse

1 urllib.parse

 

urllib 库中包含有如下内容

Package contents

    error

    parse

    request

    response

    robotparser

其中urllib.parse主要是用来解析URL(统一资源定位器)的。

urllib.parse模块定义了一个标准接口,将统一资源定位器URL字符串拆分为诸如addressing scheme、网址、路径等组件;该模块也可以将相对URL(relative URL)转换为给定的基URL(base URL)的绝对URL(absolute URL)。

urllib.parse被设计成在相对统一资源定位器(relative uniform resource locators)上与互联网RFC相匹配,它支持的URL schemes(URL协议)如下:

 file、 ftp、gopher、hdl、http、 https、imap、 mailto、 mms、news、nntp、 prospero、rsync、rtsp、 rtspu、 sftp、 shttp、 sip、 sips、 snews、svn、svn+ssh、 telnet、 wais、 ws、wss。

Python中的urllib.parse模块提供的方法可以分为两种:

网址解析(URL parsing):将URL字符串拆分为其组件

网址引用(URL quoting):将URL组建组合到URL字符串中

2 网址解析(URL parsing)

2.1 urlparse

urlparse(url, scheme='', allow_fragments=True)

将URL解析成6部分,分别是

协议(scheme)

域名(netloc)

路径(path)

路径参数(params)

查询参数(query)

片段(fragment)

备注:

这 6 项也是ParseResult对象的方法ParseResult(scheme, netloc, path, params, query, fragment),A 6-tuple that contains components of a parsed URL.

这六项数据描述符(Data descriptors inherited from ParseResult:)

 

from urllib import parse

urlp = parse.urlparse('https://www.icourse163.org/search.htm?search=%E7%AE%97%E6%B3%95#type=10&orderBy=0&pageIndex=1')
print(urlp)
print(urlp.scheme)
print(urlp.path)

 

运行

ParseResult(scheme='https', netloc='www.icourse163.org', path='/search.htm', params='', query='search=%E7%AE%97%E6%B3%95', fragment='type=10&orderBy=0&pageIndex=1')
https
/search.htm

2.2 urlunparse

定义:  urlunparse(components) 

参数:URL的六项元素

功能:再次将解析的URL重新组合在一起。

注意:该部分参数可以是

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值