介绍
简介
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库
安装
pip install beautifulsoup4
解析器
Beautiful Soup支持Python标准库中的HTML解析器(’html.parser’),还支持一些第三方的解析器,比如lxml,推荐用后者,纯C实现的,速度更快:
pip install lxml
引入及容错处理
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')
soup=soup.prettify() #容错处理===>自动补全代码
选择器
一个html是一个对象,对象可以嵌套对象;每个soup对象下的每一个标签,也都是对象。
标签选择器
- 标签选择器:即直接