爬虫day5选项卡切换和xpath解析
一、xpath数据解析
from lxml import etree
1.lxml第三方库
1)作用:lxml既可以解析xml内容也可以解析html内容
2)xpath相关术语
树 - 整个网页或者xml文件对应的结构
节点 - 标签、元素
根节点 - 最外层的标签
绝对路径 - 从根节点开始写的路径
相对路径 - 用.表示当前节点
节点内容(内容) - 双标签的标签内容
属性 - 标签属性
2.xml数据结构
"""
xml数据和json数据一样,是一种通用的数据格式。
supermarket = {
"name": "永辉超市",
"address": "肖家河大厦",
"staff": [
{"name":},
{}
{},
]
}
"""
3.xpath语法 - 获取标签
1)创建树并且获取根节点
etree.XML(xml数据) - 创建xml树结构并且返回根节点
etree.HTML(html数据) - 创建html树结构并且返回根节点
root = etree.XML(open('超市.xml', encoding='utf-8').read())
2)通过路径获取标签:节点对象.xpath(路径) - 返回值是列表,列表中的元素是通过指定路径找到的所有标签对应的节点对象
"""
1.绝对路径