BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python;
1、导入
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
2、对象
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag , NavigableString , BeautifulSoup , Comment.
1)Tag
HTML 中的一个个标签;
#当用tag作为搜索条件时,我们获取的包含这个tag块的剖析树:
#<tag><xxx>ooo</xxx></tag>
#这里获取head这个块
head = soup.find('head')
# or
# head = soup.head
# or
# head = soup.contents[0].contents[0]
2)NavigableString
Beautiful Soup用 NavigableString 类来包装tag中的字符串:
3)BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag,我们可以分别获取它的类型,名称,以及属性;
参考:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html