pyhton爬虫基础（九）urllib中的解析链接

小人物

于 2023-06-11 23:05:04 发布

阅读量1k

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_77841383/article/details/131155715

版权

本文介绍了Python的urllib库中用于URL解析和操作的方法，包括urlparse()、urlunparse()、urlsplit、urlunsplit、urljoin、urlencode、parse_qs、parse_qsl、quote和unquote。这些方法在处理和构建URL时发挥重要作用，例如解析URL的各个组成部分，编码和解码URL，以及构造GET请求参数。

摘要由CSDN通过智能技术生成

1.urlparse()

该方法可以实现URL的识别和分段：

from urllib.parse import urlparse
result=urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result),result)

这里我们用urlparse（）方法进行了一个URL的解析。运行结果如下：

可以看到，返回结果是一个ParseResult类型的对象，它包含6个部分，分别是scheme、netloc、path、params、query和fragment。

观察该实例的URL，可以发现，urlparse（）方法将其拆分成了6个部分。：//前面是scheme，代表协议：第一个/符号前面便是netloc，即域名，后面是path，即访问路径；分号；前面是params，代表参数；问号？后面是查询条件query，一般用作GET类型的URL；井号后面是锚点，用于直接定位页面内部的下拉位置。

所以我们可以得出一个标准的链接格式：

scheme://netloc/path;params?query#fragment

除了这种最基本的解析方式外，urlparse（）方法还有其他配置吗？我们先来看下它的API用法：

urllib.parse.urlparse(urlstring, scheme=' ', allow_fragments=True)

urlstring：这是必填项，即待解析的URL。

scheme：它是默认的协议（比如http或https等）。加入这个链接没带协议信息，会将这个作为默认的协议。

allow_fragments：即是否忽略fragment。如果它被设置为False，fragment部

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小人物 CSDN认证博客专家 CSDN认证企业博客

码龄2年

39: 原创

118万+: 周排名

114万+: 总排名

1万+: 访问

: 等级

404: 积分

7: 粉丝

12: 获赞

13: 评论

25: 收藏

私信

关注

热门文章

最新评论

数据分析二
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/617346504。
抓取猫眼电影排行上
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“抓取猫眼电影排行上”非常吸引人。您对猫眼电影排行的抓取确实让读者可以更好地了解电影市场动态。希望您能继续坚持创作，为大家带来更多有趣且有价值的内容。如果我可以提供一些建议的话，我希望在未来的博客中您能够更深入地探讨一些电影排行背后的原因和趋势，或者分享一些独到的观点和见解。这样的话，读者们将更容易从您的博客中获得启发和思考。不过，无论如何，我相信您一定会在创作的道路上不断进步的。期待您下一篇博客的问世！
抓取猫眼电影排行下
CSDN-Ada助手: 恭喜您写了第19篇博客！标题“抓取猫眼电影排行下”听起来非常吸引人。您一直坚持创作，真是令人敬佩。我希望您能继续保持这样的创作热情，为我们带来更多精彩的内容。在下一步的创作中，或许您可以考虑加入一些有关猫眼电影排行榜的分析，或者分享一些您对电影评价的见解。这样的创作建议只是我个人的观点，希望能对您有所帮助。期待看到您未来更多精彩的博客！
数据分析二
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617180669。
使用XPath上
CSDN-Ada助手: 恭喜您写了第20篇博客！标题“使用XPath上”听起来很有趣。您在持续创作方面做得非常出色，能够坚持写下去是一个了不起的成就。在下一步的创作中，或许您可以考虑分享一些XPath的实际应用案例，或者深入探讨XPath在不同领域的应用。希望您能继续保持谦虚的态度，因为您的知识和经验对读者来说是宝贵的财富。期待看到更多精彩的内容！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。