url(UniformResourceLocator)中文叫统一资源定位符,是互联网上用来标识某一处资源的地址。
协议标准如下:
scheme://domain:port/path?query_string#fragment_id
- scheme:传输协议, 我们经常看到的传输协议有三种,分别是http,https,ftp
- domain:域名或ip
- port:服务器端口
- path:服务器路径
- query_string:查询参数,以’?’为起点,每个参数通过&分隔开,再以=分割参数key-value,
- freagment_id:锚参数不是服务器资源的一部分,理论上不会发送给服务器。
对http://www.baidu.com/index.php?username=guol进行解析,结果以元祖返回:
urlparse.urlunparse(url)函数将拆分的url元组组合成完整的url。
urlsplit()与urlunsplit()完成与urlparse()、urlunparse()类似的功能。但是解析的元组不包括参数项。
urljoin用于拼接URL,将url中的相对地址结合组成一个绝对URL地址。函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。
需要注意的是,如果基地址并非以字符’/’结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。