xpath 模糊查询
//div[contais(@id," <...> ")]
取下一个节点(平级关系)
following-sibling::*
#bs4
用选择器查找
# 1.转类型
# 默认bs4会调用系统中lxml的解析库。所以会有较高提示,主动设置解析库
soup = BeautifulSoup(html_doc, features="lxml")
#格式化输出 补全
result = soup.prettify()
print(result)
#解析数据
# 用 "." 只能取第一个,
result = soup.head
result = soup.p
# 取文本
result = soup.a.string
#取属性
result = soup.a['href']
###四大对象:
Tag 标签对象
就对原生文本的类型
Navigablestring
string类型
bs4.BeautifulSoup
格式化文本的类型
comment
注释的内容是comment类型
2.通运解析方法
find 取符合条件的第一个标签
# name
result = soup.find(name=“a”)
#attrs穿字典
result = soup.find(attrs={"": “”})
result = soup.find()
find_all 返回列表,全部的标签对象
result = soup.find_all('a')
result = soup.find_all('a',limit=1)
select_one 对应css的选择器,返回列表,类选择器:.标签,id选择器:#标签
result=select_one('.sister')
select css选择器,返回列表
result=select('.sister')
取内容 标签包裹的内容–列表
get_text()
取属性
get('<属性的名称>')
三种选择器对比
效率上正则最快
xml 前端移动端和后台交互的数据格式
.