一文搞懂XPath查找html dom

火星求索

已于 2024-12-25 18:03:11 修改

阅读量1k

点赞数 20

分类专栏： RPA 敏捷，高效办公文章标签： xpath dom rpa

于 2024-09-24 22:55:02 首次发布

本文链接：https://blog.csdn.net/charry0110/article/details/142502336

版权

敏捷，高效办公同时被 2 个专栏收录

7 篇文章

订阅专栏

RPA

4 篇文章

订阅专栏

博主介绍： 大家好，我是想成为Super的Yuperman，互联网宇宙厂经验，17年医疗健康行业的码拉松奔跑者，曾担任技术专家、架构师、研发总监负责和主导多个应用架构。

近期专注： RPA应用研究，主流厂商产品使用，开源RPA 应用，包括UI.Vision,taskUI,taskt,OpenRpa,Robot Framework等

技术范围： 长期专注java体系，软件架构，DDD，多年java、golang、.Net、redis、nginx、tomcat、mysql、oracle等经验

业务范围： 对传统业务应用技术转型，从数字医院到区域医疗，从院内业务系统到互联网医院及健康服务，从公立医院到私立医院都有一些经历及理解

*** 为大家分享一些技术积累，欢迎交流合作持续关注Yuperman ***

XPath 路径表达式

XPath 使用路径表达式来选取 html页面的dom中的元素或者元素集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

选取 html页面的dom中的元素或者元素集
选取xml中的元素或者元素集

XPath 标准函数

XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。

选取节点愈发

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取（取子节点）。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置（取子孙节点）。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取所有名为 bookstore 的节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用"|"运算符，您可以选取若干个路径。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

Xpath查找DOM

相对定位

相对定位是两个杠表示“//”，相对路径易维护

绝对路径

绝对定位用一个杠“/”，绝对路径一个层级变化所有空间都有变化

/html/body/div[1]/section/section/main/div[2]/div[2]/div[1]/div[2]/button[1]/span

last()方法

当标签存在多个相同的时候，可以使用xpath中的last()方法，定位到最后一个

//标签名[last()]
//span/ul//li[last()]

//标签名[last()-1]
//span/ul//li[last()-1]

属性查找@

如，这里我们以百度为例，如果我们要定位到百度的id元素，那么可以使用 //标签名[@元素名称=‘元素值’]

 //标签名[@元素名称='元素值']
//input[@id='kw']

xpath逻辑表达式-and

当一个元素无法定位到唯一值得时候，我们可以使用and表达式，同一个标签下定位多个元素


//标签名[@元素名称='元素值' and @元素名称='元素值']
//input[@id='kw' and @class='s_ipt']

xpath表达式-or

xpath 中 or的表达式和and很像，指的是当你元素满足其中一个条件的时候，就可以定位到，如图，在百度搜索框中，我们故意将@class='s_t’元素写错，内容中并没有这个元素，

// 标签名[@元素名称='元素值' or @元素名称='元素值']
//input[@id='kw' or @class='s_t']

样式属性查找控件

如图，如果我们想要查找元素值不等于某个值的内容，可以使用！=方法，但是这个方法在工作中用的比较少，目前我还没有用到过，不过xpath提供了这个方法，可以结合场景使用~

//标签名称[@元素名称 != '元素值']
//input[@class!='1111']

Not查找

//标签名[not(.='元素值')
//year[not(.=2005)]
//div[not(@id="tab-AndroidVersions")]

这里没有找到合适的场景，意思就是查找year内容不为2005的内容注：“.”就等于text()

模糊匹配

//标签名[contains(text(), "内容"]
//div[contains(text(), "更新")]

这里的意思是模糊查询内容包含“更新”的元素

精准匹配

//标签名[(text()='内容')]
//div[(text()='更新文案')]

使用大于小于符号定位

//div[@class="cell" and text()>'1336']
//div[@class="cell" and text()<'1336']

如图，当我们商品列表中有多个商品ID，那我们想要定位到ID大于或者小于1336的数据，可以通过上面的方式。

轴方式定位

轴表达式说明

parent::* ：表示当前节点的父节点元素

ancestor::* ：表示当前节点的祖先节点元素

child::* ：表示当前节点的子元素 /A/descendant::* 表示A的所有后代元素

self::* ：表示当前节点的自身元素

ancestor-or-self::* ：表示当前节点的及它的祖先节点元素

descendant-or-self::* ：表示当前节点的及它们的后代元素

following-sibling::* ：表示当前节点的后序所有兄弟节点元素

preceding-sibling::* ：表示当前节点的前面所有兄弟节点元素

following::* ：表示当前节点的后序所有元素

preceding::* ：表示当前节点的所有元素

parent:: 当前节点的父节点元素*

//div[@class="cell" and text()='1338']/parent::*

如图，我们要定位到ID为1338元素的父节点元素，可以使用如上xpath轴定位, “*” 表示匹配所有

following-sibling::

/bookstore/book[1]/following-sibling::*

查找books1所有的同级元素都查找出来，“*”表示所有

//div[3]/table/tbody/tr[1]/td[1]/following-sibling::td[2]

查找td[1]下同级节点下的第二个节点

3. following-sibling::当前节点的前面所有兄弟节点元素

/bookstore/book[2]/year/preceding-sibling::*

意思是：查找books[2]下year前的同级节点

查找节点的父辈

/bookstore/book[2]/year/parent::*

查找节点的子辈

/bookstore/book[2]/descendant::*

使用position位置定位

意思是定位到th标签下的第一个

//th[@class="c-id " and position()=1]