BeautifulSoup 将 读取到的 html 进行解析,在内存中以树的形式存储,便于操作
常用的操作有
t_list = bs.find_all("a") 找到所有的a标签并返回成列表形式
bs.title 返回一个标签以及其内部的所有东西
bs.title.string 返回一个标签的内容
bs.title.attrs 返回一个标签的属性
bs.head.contents 将head里面的内容以 列表形式 返回
# bs4 BeautifulSoup 可以解析 xml文件,jason文件,html文件
from bs4 import BeautifulSoup
#打开文件 并 放入内存
file = open("./baidu.html","rb")
html = file.read().decode("utf-8")
# 以 字节形式 打开并读取了 html 则 html的类型是 bytes 字节形式
# print("html: ",type(html))
# 在内存中 建立了 一个 树形 的 结构
bs = BeautifulSoup(html,"html.parser")
# 以 BeautifulSoup 形式来 在内存中 建立了 一个 树形 的 结构
# print(bs)
# print(type(bs))
#<class 'bs4.element.Tag'>
# 得到一个个标签 及其 first 内容
# print(bs.head)
# print(type(bs.head))
# <class 'bs4.element.NavigableString'>
# print(bs.title.string) 得到内容
# print(type(bs.title.string))
# <class 'dict'>
# print(bs.a.attrs)
# print(type(bs.title.attrs)) #得到属性
# contents 获取Tag的所有子节点 返回一个list
# print(bs.head.contents)
# print(bs.head.contents)
# print(bs.body.contents[1])