Xpath进阶——不可不知的内容(实用+常用)

目录

1、XPath你需要了解到的基本内容

2、XPath路径表达式

2.1路径表达式语法

2.2 相对路径与绝对路径:

2.3 表达式上下文(Context):

2.4 谓词(筛选表达式)及轴的概念

2.5 运算符及特殊字符:

2.6 常用表达式实例:

2.7 函数及说明(模糊查询与逻辑运算符)

 2.7.1  text()函数

2.7.2  contains ()函数

2.7.3  starts-with()函数

2.7.4  name()函数

2.7.5  Axes(轴)的用法

2.7.6  逻辑运算符


1、XPath你需要了解到的基本内容

        首先呢!XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值(文本),以及节点和原子值的混合等。XPath2.0是XPath1.0的升级版本:它是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的XPath2.0的返回结果都可以和XPath1.0保持一样;另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。

        在学习XPath之前你应该对XML的节点、元素、属性、原子值(文本)、处理指令、注释、根节点(文档节点)、命名空间以及对节点间的关系如:父(Parent)、子(Children)、兄弟(Sibling)、先辈(Ancestor)、后代(Descendant)等概念有所了解。


2、XPath路径表达式

具体分为以下几个部分:

  • 路径表达式语法
  • 相对/绝对路径
  • 表达式上下文
  • 谓词(筛选表达式)及轴的概念
  • 运算符及特殊字符
  • 常用表达式实例
  • 函数及说明

2.1路径表达式语法

归类几点语法: 

  1. 路径 = 相对路径 | 绝对路径
  2. XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
  3. 步进表达式=轴 节点测试 谓词

说明:

  1. 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
  2. 谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。

       举例一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。

2.2 相对路径与绝对路径:

        如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表达式subject(路径前没有"/")这种表示法称为相对路径,表明从当前节点开始查找。具体请见下面所述的"表达式上下文"。

2.3 表达式上下文(Context):

        上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。

XPath上下文基本有以下几种:

  • 当前节点(./):

    如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender)

  • 父节点(../):

    如../sender表示选择当前节点的父节点下的sender节点集合

  • 根元素(/):

    如/messages表示选择从文档根节点下的messages节点集合.

  • 根节点(/*):

    这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。

  • 递归下降(//):

    从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。

  • 特定元素

    如sender:表示选择当前节点下的sender节点集合,等同于(./sender)

        注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如:在XMLDOM中的selectNodes,selectSingleNode方法的参数都是一个XPath表达式,此时这个XPath表达式的执行上下文就是调用这个方法的节点及它所在的环境。更多信息请参见:XML Path Language (XPath) 2.0 (Second Edition)

2.4 谓词(筛选表达式)及轴的概念

XPath的谓词即筛选表达式,类似于SQL的where子句.

轴名称

结果

ancestor

选取当前节点的所有先辈(父、祖父等)

ancestor-or-self

选取当前节点的所有先辈(父、祖父等)以及当前节点本身

attribute

选取当前节点的所有属性

child

选取当前节点的所有子元素。

descendant

选取当前节点的所有后代元素(子、孙等)。

descendant-or-self

选取当前节点的所有后代元素(子、孙等)以及当前节点本身。

following

选取文档中当前节点的结束标签之后的所有节点。

following-sibling选取当前节点之后的所有兄弟节点

namespace

选取当前节点的所有命名空间节点

parent

选取当前节点的父节点。

preceding

直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点

preceding-sibling

选取当前节点之前的所有同级节点。

self

选取当前节点。

2.5 运算符及特殊字符:

运算符/特殊字符

说明

/

此路径运算符出现在模式开头时,表示应从根节点选择。

//

从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。

.

当前上下文。

..

当前上下文节点父级。

*

通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)

@

属性名的前缀。

@*

选择所有属性,与名称无关。

:

命名空间分隔符;将命名空间前缀与元素名或属性名分隔。

( )

括号运算符(优先级最高),强制运算优先级。

[ ]

应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。

[ ]

下标运算符;用于在集合中编制索引。

|

两个节点集合的联合,如://messages/message/to | //messages/message/cc

-

减法。

div,

浮点除法。

and, or

逻辑运算。

mod

求余。

not()

逻辑非

=

等于

!=

不等于

特殊比较运算符

< 或者 &lt;

<= 或者 &lt;=

> 或者 &gt;

>= 或者 &gt;=

需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

2.6 常用表达式实例:

Xpath说明

/

Document Root文档根.

/*

选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)

/node()

根元素下所有的节点(包括文本节点,注释节点等)

/text()

查找文档根节点下的所有文本节点

/messages/message

messages节点下的所有message节点

/messages/message[1]

messages节点下的第一个message节点

/messages/message[1]/self::node()

第一个message节点(self轴表示自身,node()表示选择所有节点)

/messages/message[1]/node()

第一个message节点下的所有子节点

/messages/message[1]/*[last()]

第一个message节点的最后一个子节点

/messages/message[1]/[last()]

Error,谓词前必须是节点或节点集

/messages/message[1]/node()[last()]

第一个message节点的最后一个子节点

/messages/message[1]/text()

第一个message节点的所有子节点

/messages/message[1]//text()

第一个message节点下递归下降查找所有的文本节点(无限深度)

/messages/message[1] /child::node()

/messages/message[1] /node()

/messages/message[position()=1]/node()

//message[@id=1] /node()

第一个message节点下的所有子节点

//message[@id=1] //child::node()

递归所有子节点(无限深度)

//message[position()=1]/node()

选择id=1的message节点以及id=0的message节点

/messages/message[1] /parent::*

Messages节点

/messages/message[1]/body/attachments/parent::node()

/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..

attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。

(..也表示父节点. 表示自身节点)

//message[@id=0]/ancestor::*

Ancestor轴表示所有的祖辈,父,祖父等。

向上递归

//message[@id=0]/ancestor-or-self::*

向上递归,包含自身

//message[@id=0]/ancestor::node()

对比使用*,多一个文档根元素(Document root)

/messages/message[1]/descendant::node()

//messages/message[1]//node()

递归下降查找message节点的所有节点

/messages/message[1]/sender/following::*

查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。

//message[@id=1]/sender/following-sibling::*

查找id=1的message节点的sender节点的所有后续的同级节点。

//message[@id=1]/datetime/@date

查找id=1的message节点的datetime节点的date属性

//message[@id=1]/datetime[@date]

//message/datetime[attribute::date]

查找id=1的message节点的所有含有date属性的datetime节点

//message[datetime]

查找所有含有datetime节点的message节点

//message/datetime/attribute::*

//message/datetime/attribute::node()

//message/datetime/@*

返回message节点下datetime节点的所有属性节点

//message/datetime[attribute::*]

//message/datetime[attribute::node()]

//message/datetime[@*]

//message/datetime[@node()]

选择所有含有属性的datetime节点

//attribute::*

选择根节点下的所有属性节点

//message[@id=0]/body/preceding::node()

顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)

注意:查找同级节点是顺序查找,而不是递归查找。

//message[@id=0]/body/preceding-sibling::node()

顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)

//message[@id=1]//*[namespace::amazon]

查找id=1的所有message节点下的所有命名空间为amazon的节点。

//namespace::*

文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)

//message[@id=0]//books/*[local-name()='book']

选择books下的所有的book节点,

注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。

//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']

选择books下的所有的book节点,(节点名和命名空间都匹配)

//message[@id=0]//books/*[local-name()='book'][year>2006]

选择year节点值>2006的book节点

//message[@id=0]//books/*[local-name()='book'][1]/year>2006

指示第一个book节点的year节点值是否大于2006.

返回xs:boolean: true

2.7 函数及说明(模糊查询与逻辑运算符)

 2.7.1  text()函数

//span[text()="测试文本"]

2.7.2  contains ()函数

//button[contains(@class,"btn")]
//div[3]/button[2]/span[contains(text(),"确定")]

2.7.3  starts-with()函数

        适用场景:xpath路径为”//*[@id=’pie_hiqdsduk6r’]”,由于pie_后的字符一直变化,故难以定位,现在将其利用starts-with()函数改写成如下格式即可定位到该元素(使用上述的contains函数进行模糊查询也可以做到的)

//*[starts-with(@id,"pie_")]

2.7.4  name()函数

作用:返回元素名称适用场景:svg元素定位,svg元素用常见方式定位不到,此时可以用/[name()=“svg”]来实现元素定位,如下图中svg元素xpath为:

//div/div[1]/div[1]/div[1]/div/[name()=‘svg’]

2.7.5  Axes(轴)的用法

格式:轴名称::节点

表示该span的所有div先辈
//span[text()=’测试文本’]/ancestor::div

2.7.6  逻辑运算符

xpath支持多个属性逻辑运算,如

//*[@id='count3' and contains(text(),'4')]


好啦,本期先介绍这里咯,下期见!!!

  • 7
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

龙洋静

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值