beautifulSoup 【HTML树解析库】基本知识

Amber.Li

已于 2023-03-15 14:43:58 修改

阅读量195

点赞数

分类专栏： Python 文章标签： beautifulsoup html python

于 2023-03-15 14:40:24 首次发布

本文链接：https://blog.csdn.net/weixin_43101443/article/details/129551828

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1. 文档地址

beautifulSoup4 文档

2. 安装

pip3 install beautifulsoup4

3. 使用

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

4. 解析器

推荐使用lxml作为解析器,因为效率更高
Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定

解析器	使用方法	优势	劣势
`Python`标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
`lxml` HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
`lxml` XML 解析器	BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
`html5lib`	`BeautifulSoup(markup, "html5lib")`	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部

5. 对象的种类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hrO4xBRO-1678856014746)(beautifulSoup.assets/image-20230315114102272.png)]

基本元素	类型	说明
`Tag`	<class ‘bs4.element.Tag’>	soup.b

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>

基本元素	类型	说明
`Name`	tag中最重要的属性: name和attributes	标签名字,通过 `.name` 来获取

tag.name
# 'b'

基本元素	类型	说明
`Attributes`	tag中最重要的属性: name和attributes	标签的属性；tag[‘class’]或者tag.attrs获取

tag['class']
# 'boldest'

# 或者
tag.attrs
# {'class': 'boldest'}

基本元素	类型	说明
`NavigableString`	<class ‘bs4.element.NavigableString’>	标签内非属性字符串，标签内容文本；tag.string 获取

tag.string
# 'Extremely bold'
type(tag.string)
# <class 'bs4.element.NavigableString'>

基本元素	类型	说明
`Comment`	<class ‘bs4.element.Comment’>	注释部分；tag.string 获取

markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string  # 'Hey, buddy. Want to buy a used parser'
type(comment)
# <class 'bs4.element.Comment'>

6. 遍历

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-In8VU7iZ-1678856014747)(beautifulSoup.assets/image-20230315120817033.png)]

6.1 下行遍历

属性	说明
`.contents`	儿子节点列表，其中‘\n’换行也作为列表的一个元素【当前节点下一层】
`.children`	与.contents类似，用于遍历儿子节点【当前节点下一层】
`.descendants`	子孙节点的迭代类型，包含所有子孙节点，用于遍历循环【当前节点后续所有节点】

6.2 上行遍历

属性	说明
`.parent`	父节点
`.parents`	所有父辈节点

link = soup.a
link
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
for parent in link.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)
# p
# body
# html
# [document]
# None

6.3 平行遍历

属性	说明
`.next_sibling`	当前节点的下一个兄弟节点
`.previous_sibling`	当前节点的上一个兄弟节点
`.next_siblings`	当前节点的下面的所有兄弟节点
`.previous_siblings`	当前节点的上面的所有兄弟节点

7. 格式化与编码

7.1 格式化

格式化	说明
prettify()方法	加入 \n 格式化 HTML

7.2 编码

bs4库 将读入的内容都转换成了UTF-8 编码;
Python3默认支持UTF-8编码;建议使用bs4库时用Python3

Amber.Li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
beautifulSoup 【HTML树解析库】基本知识

子孙节点的迭代类型，包含所有子孙节点，用于遍历循环【当前节点后续所有节点】儿子节点列表，其中‘\n’换行也作为列表的一个元素【当前节点下一层】与.contents类似，用于遍历儿子节点【当前节点下一层】最好的容错性以浏览器的方式解析文档生成HTML5格式的文档。tag中最重要的属性: name和attributes。tag中最重要的属性: name和attributes。, 因为那些Python版本的标准库中内置的。当前节点的下面的所有兄弟节点。当前节点的上面的所有兄弟节点。当前节点的下一个兄弟节点。
复制链接

扫一扫