爬虫day5选项卡切换和xpath解析

最新推荐文章于 2024-07-09 15:58:38 发布

快乐永恩

最新推荐文章于 2024-07-09 15:58:38 发布

阅读量137

点赞数

文章标签：爬虫 xml json

本文链接：https://blog.csdn.net/m0_66021454/article/details/123580652

版权

爬虫day5选项卡切换和xpath解析

一、xpath数据解析

from lxml import etree

1.lxml第三方库

1）作用：lxml既可以解析xml内容也可以解析html内容

2）xpath相关术语

树 - 整个网页或者xml文件对应的结构

节点 - 标签、元素

根节点 - 最外层的标签

绝对路径 - 从根节点开始写的路径

相对路径 - 用.表示当前节点

节点内容(内容) - 双标签的标签内容

属性 - 标签属性

2.xml数据结构

"""
xml数据和json数据一样，是一种通用的数据格式。

supermarket = {
    "name": "永辉超市",
    "address": "肖家河大厦",
    "staff": [
        {"name":},
        {}
        {},
    ]
}

"""

3.xpath语法 - 获取标签

1）创建树并且获取根节点

etree.XML(xml数据) - 创建xml树结构并且返回根节点

etree.HTML(html数据) - 创建html树结构并且返回根节点

root = etree.XML(open('超市.xml', encoding='utf-8').read())

2)通过路径获取标签：节点对象.xpath(路径) - 返回值是列表，列表中的元素是通过指定路径找到的所有标签对应的节点对象

"""
1.绝对路径

最低0.47元/天解锁文章

快乐永恩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫day5选项卡切换和xpath解析

爬虫day5选项卡切换和xpath解析一、xpath数据解析from lxml import etree1.lxml第三方库1）作用：lxml既可以解析xml内容也可以解析html内容2）xpath相关术语树 - 整个网页或者xml文件对应的结构节点 - 标签、元素根节点 - 最外层的标签绝对路径 - 从根节点开始写的路径相对路径 - 用.表示当前节点节点内容(内容) - 双标签的标签内容属性 - 标签属性2.xml数据结构"""xml数据和json数据一样，
复制链接

扫一扫