xpath的相对定位和绝对定位

HJX—

于 2024-07-23 05:07:30 发布

阅读量639

点赞数 20

文章标签： python 网络爬虫 xml

本文链接：https://blog.csdn.net/Eoning/article/details/140624187

版权

XPath 是一门在 XML 文档中查找信息的语言。它通过路径表达式导航 XML 文档，广泛应用于各种场景。XPath 的灵活性和强大功能使其成为在 XML 结构中准确定位和提取数据的重要工具。

XPath 使用场景

Web 自动化测试：

XPath 在 Web 自动化测试中广泛应用，XPath 提供了一种强大的定位方式。它能够通过元素的层次结构、属性、文本内容等进行更加灵活和精准的定位，适用于各种复杂的 Web 应用页面。

App 自动化测试：

在移动应用的自动化测试中，XPath 可以在原生应用和混合应用（Hybrid App）中定位和操作元素。在 App 的 UI 中，XPath 可以针对不同平台（如iOS和Android）提供一致的选择能力，使测试脚本更具通用性。

XPath 基础语法（包含关系）

表达式	结果
/	从该节点的子元素选取
//	从该节点的子孙元素选取
*	通配符
nodename	选取此节点的所有子节点
…	选取当前节点的父节点
@	选取属性

XPath的定位

同一个节点有绝对路径和相对路径两种写法
参考文章：xpath路径表达式笔记 - 阮一峰的网络日志 (ruanyifeng.com)

相对定位

相对定位是两个杠表示“//”，相对路径易维护

定位	说明
//ul/*	ul的所有子元素
//input[2]	第2个input元素
//input[last()	最后一个input元素
input[position()< 3]	前2个input元素
//input[@value]	有value属性的input元素
//input[@name=‘password’ and @pwd=‘123456’]	属性name的值等于password并且属性pwd的值等于123456的input元素
//ul/*[5]	ul的第五个子元素
//*[text()=‘Heading’	任意包含Heading文本的元素
//input[@*=‘SYS123456’]	任意属性的值为SYS123456

XPath 相对定位的优点

可维护性更强：XPath 相对定位可以相对于其他元素的方式来定位元素。如果页面结构发生变化，只需要更新相对路径中的某些部分，而不必重新创建整个定位表达式。
语法更加简洁：XPath 相对路径是相对于其他元素的路径，更容易理解和编写。与复杂的绝对路径相比，相对路径语法更加简洁。
相比于 css 可以支持更多的方式：XPath 相对定位可以访问 XML 和 HTML 文档的任何部分，而不仅仅是元素和属性。

绝对路径

绝对定位用一个杠“/”，绝对路径一个层级变化所有空间都有变化

xpath在爬虫中的简单使用

代码：

import requests  
from lxml import etree  
#定义url
url = "https://www.baidu.com/"  
#获取网页代码
response = requests.get(url) 
#解析成xpath可以分析的编码
html = etree.HTML(response.text)  
#定义爬虫位置为links
links = html.xpath("//div/p/a/text()")
#for循环遍历处所有节点内容
for link in links:  
    print(link)