首先要知道, urllib.parse 是用来做什么的?
看名字,url , parse, 所以,urllib.parse 定义了url 的标准接口, 实现了url 的各种抽取,解析, 合并,编码, 解码。
另外,官方定义如是:这个模块是一个能把URL字符串拆分成组件,能把组件合并成URL和将一个相对的URL转成一个抽象的URL,从而的到一个基本的URL标准格式。
简单的说就是可以拆分URL,也可以拼接URL,他支持的URL格式为:file、ftp、gopher、hdl、http、https、imap、mailto,mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、shttp、sip、sips、snews、svn、svn+ssh、telnet、wais、ws、wss。
这个模块默认分为两个类别,URL parsing(URL解析) 和 URL quoting(URL引用)
(一)、URL parsing(URL解析)
urllib.parse.urlparse(urlstring, scheme=”, allow_fragments=True) : urlparse 函数用于将一个URL 解析成六个部分,返回一个元组。
这里有两点需要学习:URL 按照什么格式或者规则进行解析 & 函数后面的括号中的参数为空的时候如何解析。
首先:URL的标准格式有六个部分: