BeautifulSoup 库 -- 解析,遍历, 维护标签树的功能库, 也叫beautifulsoup4库或者bs4
from bs4 import BeautifulSoup(从bs4中引入类)/ import bs4
<p class="title">...</p> // p:标签的名称,成对出现,表明范围
p的中间出现域,class的属性是“title”
html <=> 标签树 <=> BeautifulSoup类
soup = BeautifulSoup("文档内容", “解析器(html.parser)")
BeautifulSoup对应一个HTML/XML文档的全部内容
解析器:
html.parser -- bs4的HTML解析器
lxml -- lxml的HTML解析器
xml -- lxml的XML解析器
htm15lib -- html15lib的解析器
哪个解析器都可以解析HTML和XML文档
BeautifulSoup类基本元素:
1 Tag : 标签, 最基本的信息组织单元, 发呢别用<> 和</>标明开头和结尾
2 Name :标签的名字, 格式<tag>.name
3 Attributes : 标签的属性, 格式<tag>.attrs
4 NavigableString : 标签内非属性字符串,格式<tag>.string
5 Comment : 标签内字符串的注释部分, 一种特殊的Comment类型
soup = BeautifulSoup(demo, "html.parset")
soup.a.name / soup.a.parent.name // a标签的名字,a标签父亲的名字(包含a)
tag = soup.a
tag.attrs //获取标签属性(返回字典类型)
tag.attrs[属性名]
tag.string (获取非属性字符串 / 注释)//注释会返回特殊的注释类型