url拼接

最新推荐文章于 2024-06-22 18:37:42 发布

weixin_33709364

最新推荐文章于 2024-06-22 18:37:42 发布

阅读量707

点赞数

文章标签： c/c++ python

原文链接：http://www.cnblogs.com/chybot/p/4862191.html

版权

在做网页抓取的时候经常会遇到一个问题就是页面中的链接是相对链接，这个时候就需要对链接进行url拼接，才能得到绝对链接。

url严格按照一定的格式构成，一般为如下5个字段：

详细可参考RFC:http://tools.ietf.org/html/rfc3986

url拼接一般包含如下几种情况：

1.相对链接不包含路径，则直接在父链接所在的路径级别后面加上该相对链接即可得到拼接的url：

例如：http://www.baidu.com，相对链接：index.html，得到:http://www.baidu.com/index.html

http://www.baidu.com/index.html，相对链接：hello.html，得到:http://www.baidu.com/hello.html

2.相对链接包含路径，则在父链接所在的路径级别后拼接相对路径得到拼接后的url：

例如： http://www.baidu.com/movie/123.html，相对链接：/contact/index.html，得到：http://www.baidu.com/movie/contact/index.html

3.更为复杂的情况是相对路径带有../，此时将按照../得到相应的路径再拼接url：

例如：http://www.baidu.com/movie/123.html，相对链接：../contact/index.html，得到：http://www.baidu.com/contact/index.html

如果html头部有 <base>标记，例如：<base href="http://www.father.com/" />则该页面上的基准URL都以此为准，不考虑其父链的情况。

python中的常用的url拼接库为urlparse.urljoin(base, url, flag)

此外，对于网页中的图片链接的拼接，可采用如下方式：

1.如果图片链接为完整连接，则不需要拼接；

2.如果网页中的图片连接以'/'开头，则通过domain拼接：

img = urlparse.urljoin(base_url, img)

3.如果网页中的图片连接不以'/'开头，则通过当前页面url拼接：

img = urlparse.urljoin(cur_url, img)

同样的方式适用于网页中的anchor链接的拼接。

转载于:https://www.cnblogs.com/chybot/p/4862191.html

weixin_33709364

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
url拼接

在做网页抓取的时候经常会遇到一个问题就是页面中的链接是相对链接，这个时候就需要对链接进行url拼接，才能得到绝对链接。url严格按照一定的格式构成，一般为如下5个字段：详细可参考RFC:http://tools.ietf.org/html/rfc3986url拼接一般包含如下几种情况：1.相对链接不包含路径，则直接在父链接所在的路径级别后面加上该相对链接即可得到拼接的url：...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。