BeautifulSoup库学习

最新推荐文章于 2024-06-14 09:50:01 发布

置顶 Mr___Song

最新推荐文章于 2024-06-14 09:50:01 发布

阅读量219

点赞数 2

分类专栏： Python 文章标签： python BeautifulSoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr___Song/article/details/87974754

版权

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.BeautifulSoup库简介

Beautiful Soup库,也叫做beautifulsoup4或bs4库，是解析、遍历、维护“标签树”的功能库

标签简单介绍

 <p>...</>:标签Tag  
 <p class = "title">...</p>   p:名称成对出现，class=xxx属性0个或者多个

2.Beautiful Soup库解析器

bs4的HTML解析器 BeautifulSoup(test,‘html.parser’) 要求安装bs4库
lxml的HTML解析器 BeautifulSoup(test,‘lxml’) 要求pip install lxml
lxml的XML解析器 BeautifulSoup(test,‘xml’) 要求pip install lxml
html5lib的解析器 BeautifulSoup(test,‘html5lib’) 要求 pip install html5lib

3.Beautiful Soup库的基本元素

Tag: 标签，最基本的信息组织单元，分别用<></>标明开头和结尾
Name: 标签的名字 <p>...<p>的名字是'p'，格式:<tag>.name
Attributes: 标签的属性，字典形式组织 格式:<tag>.attrs
NavigableString: 标签内非属性字符串，<>...</>中字符串，格式：<tag>.string
Comment：标签内字符串的注释部分，一种特殊的Comment类型

4.标签树的下行遍历

① .contents 子节点的列表，将<tag>所有儿子节点存入列表
② .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
③ .descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

5.标签树的上行遍历

① .parent 节点的父亲标签
② .parents 节点的先辈标签的迭代类型，用于循环遍历先辈节点

6.标签树的平行遍历

注意：平行遍历发生再同一个父亲节点下的个节点间，遍历包括其中的string

① .next_sibling: 返回按照HTML文本顺序的下一个平行节点标签
② .previous_sibling: 返回按照HTML文本顺序的上一个平行节点标签
③ .next_siblings: 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
④ .previous_siblings: 迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

7.按html格式输出

.prettify()
为html文本增加换行符号，也可以对单个标签进行处理。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup库学习

BeautifulSoup库简介Beautiful Soup库,也叫做beautifulsoup4或bs4库，是解析、遍历、维护“标签树”的功能库标签简单介绍 &amp;lt;p&amp;gt;...&amp;lt;/&amp;gt;:标签Tag &amp;lt;p class = &quot;title&quot;&amp;gt;...&amp;lt;/p&amp;gt; p:名称成对出现，class=xxx属
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。