爬虫项目中用requests库请求的源码文件,其中的跳转有些时候是相对路径而非绝对路径,这个时候用到了urlparse模块,后来详细了解了下这个模块的使用方法,如下
urlparse是url解析模块
该函数会将url拆解成六个部分,分别是scheme,netloc,path,params,query,fragmennt
常用函数
1.拆解url成分,返回元组
urlparse.urlpsrse(url)
2.与上一个函数相反,接收一个元组,组合成一个url
urlparse.urlparse(tuple)
3.拆解url,不分解url参数
urlparse.urlsplit(url)
4.根据base和url组装一个绝对url
urlparse.urljoin(base,url)
在制作爬虫的时候获取到跳转url之后可以再通过相应句柄的url获取当前的url,然后就可以拼出跳转链接的绝对路径了,这样比起自己写拆分组装简单有准确