BeautifulSoup库是用来解析html,xml的功能库
1.导入
from bs4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parserr')
data是你需要解析的内容,html也可以换为xml
2.基本元素
Tag标签
Name标签的名字
Attributes标签的属性
NavigableString标签之间的字符串
Comment标签内容中间的注释字符串
3.基于bs4的HTML内容遍历方法
(1)上行遍历
.parent 获得当前节点的父节点
.parents 获得当前节点所有的先辈节点
(2)平行遍历
<是同一父节点下的平行遍历>
.next_sibling
.previous_sibling
<下面两个只能用于循环中>
.next_siblings
.previous_siblings
(3)下行遍历
.contents
.children
.descendants
4.prettify()
.prettify()
通过在每个标签中添加/n换行符,实现输出时HTML文本更易于阅读
..prettify()
针对特定标签tag实现该功能