python中BeautifulSoup解析的常用方法

都市最强牛爷爷

于 2024-04-06 21:02:09 发布

阅读量357

点赞数 14

文章标签： python beautifulsoup 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82586867/article/details/137430076

版权

BeautifulSoup解析的流程

实例化soup对象，传入html
利用方法属性进行解析

1. 实例化对象

1.1 本地传入html进行实例化

from bs4 import BeautfulSoup
fp = open("./test001.html","r",encoding="utf8",encoding="utf8")
soup = BeautfulSoup(fp,"lxml")

1.2 使用request库得到response进行实例化

soup = BeautfulSoup(response.text,"lxml")

2.利用方法属性进行解析

2.1得到第一个匹配对象

2.1.1 soup.TagName

得到第一个匹配的对象

div = soup.div

2.1.2 soup.find("TagName")

得到第一个匹配对象，效果与 2.1 相同

div = soup.find("div")

2.1.3 soup.find("TagName",attrs={})

得到第一个满足attrs的对象，其中attrs是一个字典

form=soup.find("form",attrs={"method":"post"})

2.2 得到所有匹配对象

2.2.1 soup.find_all("TagName",attrs={})

得到所有满足attrs的对象，其中attrs是一个字典

trs=form.find_all("tr",attrs={"class":"text-c"})

2.3 选择器select的用法

2.3.1 soup.select('选择器名称（id class 标签等）')

返回的是 list 类型

tang = soup.select('.tang')

2.3.2 soup.select('选择器 > ul > li >a ')

返回选择器所选择目录下ul 下li 下a标签（>表示直接隶属）

2.3.3 soup.select('选择器 > ul a ')

返回选择器所选择目录下ul 所包含的所有a标签（空格表示标签下所有）

2.4 获取标签间文本文件

2.4.1 soup.TagName.text （或者 .get_text()）

返回标签下所有文字内容

2.4.2 soup.TagName.string

返回标签下直接隶属的文字内容

2.4.3 soup.a["href"]

返回标签的属性

都市最强牛爷爷

关注

14
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python中BeautifulSoup解析的常用方法

得到第一个满足attrs的对象，其中attrs是一个字典。得到所有满足attrs的对象，其中attrs是一个字典。返回选择器所选择目录下ul 所包含的所有a标签（返回选择器所选择目录下ul 下li 下a标签（得到第一个匹配对象，效果与 2.1 相同。（id class 标签等）或者 .get_text()返回标签下直接隶属的文字内容。返回的是 list 类型。返回标签下所有文字内容。得到第一个匹配的对象。
复制链接

扫一扫

都市最强牛爷爷 CSDN认证博客专家 CSDN认证企业博客

码龄1年

9: 原创

136万+: 周排名

9万+: 总排名

6244: 访问

: 等级

245: 积分

79: 粉丝

157: 获赞

4: 评论

93: 收藏

私信

关注

热门文章

最新评论

基于selenium的小说爬取
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
基于selenium的小说爬取
CSDN-Ada助手: 恭喜您发布了新的博客，基于selenium的小说爬取听起来很有意思！不仅展示了您对技术的熟练运用，还为读者提供了全新的阅读体验。希望您能继续保持创作的热情和耐心，探索更多有趣的主题和技术应用。或许在下一篇博客中，可以分享一下如何优化爬取效率或者应用场景的拓展，让读者更加深入地了解这一技术的潜力。期待您的下一篇作品！
python中BeautifulSoup解析的常用方法
CSDN-Ada助手: 恭喜用户写了第6篇博客，标题为“python中BeautifulSoup解析的常用方法”，内容相信对很多人都很有帮助。希望用户能够继续保持创作的热情，分享更多有价值的知识给大家。下一步建议可以尝试结合实际案例，深入探讨BeautifulSoup在爬虫项目中的应用，相信会更加引人关注。期待用户的下一篇作品！
python爬虫的一些代码
CSDN-Ada助手: 恭喜用户成功发布第5篇博客！看到您分享关于python爬虫的代码，让我感到非常振奋。希望您能继续保持创作的热情，不断学习、积累经验，或许可以尝试探讨一些实用的爬虫技巧，或者分享一些实战经验，让更多人受益。期待您的下一篇作品！继续加油哦！
Python简单项目实现3（完全数/斐波那契数列）
CSDN-Ada助手: 恭喜您再次发布了一篇有趣的博客！对完全数和斐波那契数列的实现方式进行了详细的介绍，让读者能够更深入地了解Python的应用。希望您能继续保持创作的热情，可以考虑尝试更复杂的项目或者深入探讨某个领域的知识，让您的读者们有更多的收获。继续加油，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。