在数据采集过程中,经常会遇到URL的相对路径和绝对路径问题。
类似某些网站在我们进行数据抓取的时候会遇见文章列表页url是绝对路径的情况,这个抓取下来直接访问详情页是没有结果直接404的,因此需要将网址url进行拼接或者详情页的网址。
如何使用Python的内置模块urllib.parse
来一键将相对路径转换为绝对路径。定义一个基础网址和一个相对网址,使用urljoin
函数进行合并,最终得到一个完整的绝对路径网址。这里提供了具体的代码实例,仅几行代码即可解决这个问题。
不仅如此还解释了urllib.parse
模块中其他有用的函数,如何解析和重构URL,以及如何进行URL编码和解码。
文章目录
Url路径处理方法
处理方式有很种,这里介绍一种最简单的方法。
parse
是Python内置的urllib.parse
模块的一部分,用于处理和解析URL。page_url = 'http://society.people.com.cn/'
: 定义一个字符串变量page_url
,存储基础网址。new_url = '/n1/2021/0209/c1008-32026861.html'
: 定义一个字符串变量new_url
,存储一个相对网址。new_full_url = parse.url