Python Beautiful Soup使用基础知识

最新推荐文章于 2023-05-19 16:28:13 发布

henry05102

最新推荐文章于 2023-05-19 16:28:13 发布

阅读量207

点赞数

分类专栏： Python学习文章标签： python

本文链接：https://blog.csdn.net/henry05102/article/details/115536222

版权

Python学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python Beautiful Soup使用基础知识

beautiful suop是用来解析HTML页面信息标记与提取方法，现阶段正在自学并使用中，因此把之前的笔记丢上来共勉。

1、安装
pip install beautifulsoup4

2、使用
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘

data

’, ‘html.parser’)
print(soup.prettify())
注： html.parser 解析器

3、基本元素
(1)HTML解析器
①bs4的HTML解析器
1)使用方法：BeautifulSoup(mk, ‘html.parser’)
2)条件：安装bs4库 (from bs4 import BeautifulSoup)
②lxml的HTML解析器
1)使用方法：BeautifulSoup(mk, ‘lxml’)
2)条件：pip install lxml
③lxml的XML解析器
1)使用方法：BeautifulSoup(mk, ‘xml’)
2)条件：pip install lxml
④html5lib的解析器
1)使用方法：BeautifulSoup(mk, ‘html5lib’)
2)条件：pip install html5lib
(2)基本元素
①Tag：标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
②Name：标签的名字，

…

的名字是’p’，格式：.name
③Attributes：标签的属性，字典形式组织，格式：.attrs
④NavigableString：标签内非属性字符串，<>…</>中字符串，格式：.string
⑤Comment：标签内字符串的注释部分，一种特殊的Comment类型

4、基于bs4库的HTML内容遍历方法
(1)标签树的下午遍历
①.contents：子节点的列表，将所有儿子节点存入列表
②.children：子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
③.descendants：子孙节点的迭代类型，包含所有子孙节点，用于循环遍历
(2)标签树的上行遍历
①.parent：节点的父亲标签
②.parents：节点的先辈标签的迭代类型，用于循环遍历先辈节点
(3)标签树的平行遍历
①.next_sibling：返回按照HTML文本顺序的下一个平行节点标签
②.previous_sibling：返回按照HTML文本顺序的上一个平行节点标签
③.next_siblings：迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
④.previous_siblings：迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

5、基于bs4库的HTML格式化和编码
prettify：HTML文本标签及内容美化
例如：soup.prettify() print(soup.a.prettify())