官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
创建BeautifulSoup对象
1.导入bs4库
from bs4 import BeautifulSoup
2.创建beautifulsoup对象
soup=BeautifulSoup(“html字符串”或者本地html文件)
3.格式化输出
print(soup.prettify())
bs4主要解析器解释
-使用方式:BeautifulSoup(markup,”解析器”)
-主要的解析器:
–Python标准库 “html.parser”默认解析器(速度适中,文档容错强)
–lxm HTTML解析器 “lxml”(速度快,文档容错强)
–lxml XML解析器 “lxm”,”xml”
–html5lib “html5lib” (速度慢,文档容错强)
推荐使用lxml作为解析器
四大对象种类
BeautifulSoup将复制HTML文档转换一个复杂的树形结构,每个节点都是一个python对象,可以分为4种:
1.Tag
-Tag对象与XML或HTML原文档中的tag相同
soup=BeautifulSoup("<b class="boldest>hello bs</b>")
tag=soup.b
type(tag) #<class 'bs4.element.Tag'>
两个重要属性:
(1)name