Xpath语法基础

XPath是一种在XML文档中选取节点的语言,它包含路径表达式、标准函数库和多种节点类型。XPath允许选取元素、属性、文本等节点,并通过谓语表达式进行精确定位。通配符和运算符提供灵活性,内建函数支持字符串、数值和逻辑操作。该文介绍了XPath的基础语法和核心概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Xpath语法基础知识

Author:Once Day Date:2023年3月30日

参考文档:

1.概述

下面是关于xpath的概述:

  • XPath 使用路径表达式在 XML 文档中进行导航
  • XPath 包含一个标准函数库
  • XPath 是 XSLT 中的主要元素
  • XPath 是一个 W3C 标准

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。

XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。

关于这些函数,可参考网站文章XPath、XQuery 以及 XSLT 函数 | 菜鸟教程 (runoob.com)

1.1 Xpath节点术语

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

基本值是指无父或无子的节点,项目则指基本值或者节点

节点之间有如下的可能关系:

  • 父(Parent), 每个元素以及属性都有一个父。
  • 子(Children), 元素节点可有零个、一个或多个子。
  • 同胞(Sibling),拥有相同的父的节点。
  • 先辈(Ancestor),某节点的父、父的父,等等。
  • 后代(Descendant),某个节点的子,子的子,等等。
2. 基础语法
2.1 选取节点

下面是常见的XPATH路径表达式:

表达式描述
node-name选取此节点的所有子节点。如testnode,选取testnode元素的所有子节点。
/从根节点开始选取,即绝对路径,如/test1/test2,选取从根元素test1下test2的所有子节点。
//从匹配选择的当前节点选择文档中的节点,忽略节点位置,如//test,选取所有test元素,忽略它们所在位置。
.选取当前节点位置,即相对路径。
选取当前节点的父节点,即相对路径。
@name选取名字为name的属性。

上述的不同路径表达式能互相组合,从而构建强大的表达能力

2.2 谓语表达式

谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中使用。

下面是一些实际的谓语表达式例子,来自XPath 语法 | 菜鸟教程 (runoob.com)

路径表达式结果
/test1/book[1]选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()< 3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=‘eng’]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
2.3 选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符描述
*匹配任何元素节点, 如/ip/*,选取IP节点下面的所有节点。
@*匹配任何属性节点,如//network[@*],选取所有带属性的title元素。
node()匹配任何类型的节点。
2.4 多路径选择

在路径表达式中使用|运算符,可以选取多个路径。如下:

//test1 | //test2

选取文档中所有test1test2元素

2.5 Xpath轴

通过轴这一定义,能以当前节点的相对位置选择目标节点集。

轴名称结果
ancestor选取当前节点的所有先辈(父、祖父等)。
ancestor-or-self选取当前节点的所有先辈(父、祖父等)以及当前节点本身。
attribute选取当前节点的所有属性。
child选取当前节点的所有子元素。
descendant选取当前节点的所有后代元素(子、孙等)。
descendant-or-self选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
following选取文档中当前节点的结束标签之后的所有节点。
following-sibling选取当前节点之后的所有兄弟节点
namespace选取当前节点的所有命名空间节点。
parent选取当前节点的父节点。
preceding选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling选取当前节点之前的所有同级节点。
self选取当前节点。

使用如下:

//test/following::*[2]
//test/ancestor::*

第一个表达式选取了当前节点之后顺数第二个节点。

第二个表达式选取了当前节点的所有祖先节点。

2.6 XPath运算符

这些元素符含义很直接,来源于:XPath 运算符 | 菜鸟教程 (runoob.com)

运算符描述实例返回值
|计算两个节点集//book | //cd返回所有拥有 book 和 cd 元素的节点集
+加法6 + 410
-减法6 - 42
*乘法6 * 424
div除法8 div 42
=等于price=9.80如果 price 是 9.80,则返回 true。如果 price 是 9.90,则返回 false。
!=不等于price!=9.80如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。
<小于price<9.80如果 price 是 9.00,则返回 true。如果 price 是 9.90,则返回 false。
<=小于或等于price<=9.80如果 price 是 9.00,则返回 true。如果 price 是 9.90,则返回 false。
>大于price>9.80如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。
>=大于或等于price>=9.80如果 price 是 9.90,则返回 true。如果 price 是 9.70,则返回 false。
orprice=9.80 or price=9.70如果 price 是 9.80,则返回 true。如果 price 是 9.50,则返回 false。
andprice>9.00 and price<9.90如果 price 是 9.80,则返回 true。如果 price 是 8.50,则返回 false。
mod计算除法的余数5 mod 21
3.内建函数

详细内容可以参考:XPath、XQuery 以及 XSLT 函数 | 菜鸟教程 (runoob.com)

其他可参考资料:

### XPath 基本语法教程 #### 1. 路径表达式基础 XPath 使用路径表达式来选择 XML 文档中的节点或节点集合。这些表达式类似于文件系统的路径表示法。例如,在文件系统中 `C:\user\admin` 表示访问特定目录下的文件,而在 XPath 中 `/html/body/div/h1` 则用于定位 HTML 页面上的 `<h1>` 元素[^1]。 #### 2. 绝对与相对路径 - **绝对路径**:从根节点开始定义的选择器,总是以斜杠 (`/`) 开始。比如 `/html/head/title` 只会选择位于文档顶部的 title 标签。 - **相对路径**:不以斜杠开头,而是相对于当前上下文位置进行匹配。如 `div/p` 将会找到所有 div 下面直接嵌套的一级 p 子标签[^2]。 #### 3. 通配符使用 可以利用星号 (*) 来代表任意单个元素名称或者点 (.) 和双点(..) 分别指代当前位置以及父级位置: - `./*`: 当前节点下所有的子元素; - `../@*`: 获取上层节点的所有属性值[^3]。 #### 4. 属性过滤 通过方括号 `[ ]` 对指定条件加以限定从而实现更精确的目标锁定。例如要获取 id="header" 的 div,则写作 `//div[@id='header']` 。这里 @ 符号表明后面跟的是属性名。 #### 5. 函数支持 除了简单的路径描述外,XPath 还提供了丰富的内置函数库供开发者调用,像 text() 返回文本内容, contains(string, substring) 测试字符串包含关系等。这使得查询更加灵活多变。 ```python from lxml import etree # 解析HTML源码并创建树结构对象 tree = etree.HTML(html_content) # 应用XPath提取数据 titles = tree.xpath('//a[contains(@href,"article")]/text()') links = tree.xpath('//a[contains(@href,"article")]/@href') for i in range(len(titles)): print(f"{titles[i]} -> {links[i]}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值