深入理解 XPath：XML 和 HTML 文档的利器

最新推荐文章于 2025-09-30 11:14:12 发布

原创

最新推荐文章于 2025-09-30 11:14:12 发布 · 1.1k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#xml #html #服务器

XPath（XML Path Language）是一种用于在 XML 和 HTML 文档中定位节点的语言。它常用于 XML 解析、Web 数据抓取（如 Selenium 或 Scrapy）以及配置文件解析。本文将带你深入了解 XPath 的语法、功能及其在实际中的应用。

目录

一、什么是 XPath？

XPath 是 W3C 标准的一部分，主要用于在 XML 和 HTML 文档中通过路径表达式导航。它支持强大的查询功能，可以通过标签、属性、文本内容等多种方式快速定位节点。

XPath 的核心概念：

节点：文档的基本构成，包括元素节点、属性节点、文本节点等。
路径：用类似文件系统路径的方式表示节点的位置。
谓词：通过条件筛选节点。

二、XPath 的基本语法

XPath 使用路径表达式来选择节点。以下是一些常用的表达式和用法：

1. 绝对路径和相对路径

绝对路径：以 / 开头，从根节点开始选择。
```
/html/body/div
```
匹配从根节点到 div 的完整路径。
相对路径：以 // 开头，从任意位置匹配符合条件的节点。
```
//div
```
匹配文档中所有的 div 节点。

2. 通配符

*：匹配任意节点。

/html/body/*  # 匹配 body 下的所有子节点

@*：匹配任意属性。

//div[@*]  # 匹配具有任意属性的 div 节点

3. 谓词

谓词使用 [] 表示，用于过滤节点。

按索引匹配：
```
//div[1]  # 匹配第一个 div 节点
```

按属性匹配：

//div[@class='content']  # 匹配 class 属性为 'content' 的 div 节点

按文本内容匹配：

//div[text()='Hello World']  # 匹配内容为 'Hello World' 的 div 节点

4. 轴（Axes）

轴用于指定节点的关系，如父节点、兄弟节点、子节点等。

parent：选择父节点。
```
//div/parent::body
```

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。