scrapy-选择器

选择器

xpath 选择器

XPath简介

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请见:http://www.w3.org/TR/xpath20/

XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。

在学习XPath之前你应该对XML的节点,元素,属性,原子值(文本),处理指令,注释,根节点(文档节点),命名空间以及对节点间的关系如:父(Parent),子(Children),兄弟(Sibling),先辈(Ancestor),后代(Descendant)等概念有所了解。这里不在说明。

路径表达式语法

  • 路径 = 相对路径 | 绝对路径
  • XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
  • 步进表达式=轴 节点测试 谓词

说明

  • 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
  • 谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。

请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。

  • 相对路径与绝对路径:
  • 表达式上下文(Context):

XPath上下文基本有以下几种:

  • 当前节点(./):

如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender)

  • 父节点(…/):

如…/sender表示选择当前节点的父节点下的sender节点集合

  • 根元素(/):

如/messages表示选择从文档根节点下的messages节点集合.

  • 根节点(/*):

这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是messages节点。

  • 递归下降(//):

如当前上下文是messages节点。

  • 特定元素

如sender:表示选择当前节点下的sender节点集合,等同于(./sender)

谓词(筛选表达式)及轴的概念:

名称结果
ancestor选取当前节点的所有先辈(父、祖父等)
ancestor-or-self选取当前节点的所有先辈(父、祖父等)以及当前节点本身
attribute选取当前节点的所有属性
child选取当前节点的所有子元素。
descendant选取当前节点的所有后代元素(子、孙等)。
descendant-or-self选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
following选取文档中当前节点的结束标签之后的所有节点。
namespace选取当前节点的所有命名空间节点
parent选取当前节点的父节点。
preceding直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点
preceding-sibling选取当前节点之前的所有同级节点。
self选取当前节点。

运算符及特殊字符:

运算符/特殊字符说明
/此路径运算符出现在模式开头时,表示应从根节点选择。
//从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。
.当前上下文。
当前上下文节点父级。
*通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)
@属性名的前缀。
@*选择所有属性,与名称无关。
:命名空间分隔符;将命名空间前缀与元素名或属性名分隔。
( )括号运算符(优先级最高),强制运算优先级。
[ ]应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。
[ ]下标运算符;用于在集合中编制索引。
|两个节点集合的联合,如://messages/message/to | //messages/message/cc
-减法。
div,浮点除法。
and, or逻辑运算。
mod求余。
not()逻辑非
=等于
!=不等于
特殊比较运算符< 或者 <
<= 或者 <=
> 或者 >
>= 或者 >=
需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

常用表达式实例:

/Document Root文档根.
/*选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)
/node()根元素下所有的节点(包括文本节点,注释节点等)
/text()查找文档根节点下的所有文本节点
/messages/messagemessages节点下的所有message节点
/messages/message[1]messages节点下的第一个message节点
/messages/message[1]/self::node()第一个message节点(self轴表示自身,node()表示选择所有节点)
/messages/message[1]/node()第一个message节点下的所有子节点
/messages/message[1]/*[last()]第一个message节点的最后一个子节点
/messages/message[1]/[last()]Error,谓词前必须是节点或节点集
/messages/message[1]/node()[last()]第一个message节点的最后一个子节点
/messages/message[1]/text()第一个message节点的所有子节点
/messages/message[1]//text()第一个message节点下递归下降查找所有的文本节点(无限深度)
/messages/message[1] /child::node()
/messages/message[1] /node()
/messages/message[position()=1]/node()
//message[@id=1] /node()
第一个message节点下的所有子节点
//message[@id=1] //child::node()递归所有子节点(无限深度)
//message[position()=1]/node()选择id=1的message节点以及id=0的message节点
/messages/message[1] /parent:😗Messages节点
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent:😗 /messages/message[1]/body/attachments/…
attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。
(…也表示父节点. 表示自身节点)
//message[@id=0]/ancestor:😗Ancestor轴表示所有的祖辈,父,祖父等。
向上递归
//message[@id=0]/ancestor-or-self:😗向上递归,包含自身
//message[@id=0]/ancestor::node()对比使用*,多一个文档根元素(Document root)
/messages/message[1]/descendant::node()
//messages/message[1]//node()
递归下降查找message节点的所有节点
/messages/message[1]/sender/following:😗查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。
//message[@id=1]/sender/following-sibling:😗查找id=1的message节点的sender节点的所有后续的同级节点。
//message[@id=1]/datetime/@date查找id=1的message节点的datetime节点的date属性
//message[@id=1]/datetime[@date]
//message/datetime[attribute::date]
查找id=1的message节点的所有含有date属性的datetime节点
//message[datetime]查找所有含有datetime节点的message节点
//message/datetime/attribute::
//message/datetime/attribute::node()
//message/datetime/@
返回message节点下datetime节点的所有属性节点
//message/datetime[attribute::]
//message/datetime[attribute::node()]
//message/datetime[@
]
//message/datetime[@node()]
选择所有含有属性的datetime节点
//attribute:😗选择根节点下的所有属性节点
//message[@id=0]/body/preceding::node()顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)
注意:查找同级节点是顺序查找,而不是递归查找。
//message[@id=0]/body/preceding-sibling::node()顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)
//message[@id=1]//*[namespace::amazon]查找id=1的所有message节点下的所有命名空间为amazon的节点。
//namespace:😗文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)
//message[@id=0]//books/*[local-name()=‘book’]选择books下的所有的book节点,
注意:由于book节点定义了命名空间amazone:book.若写成//message[@id=0]//books/book则查找不出任何节点。
//message[@id=0]//books/*[local-name()=‘book’ and namespace-uri()=‘http://www.amazon.com/books/schema’]选择books下的所有的book节点,(节点名和命名空间都匹配)
//message[@id=0]//books/*[local-name()=‘book’][year>2006]选择year节点值>2006的book节点
//message[@id=0]//books/*[local-name()=‘book’][1]/year>2006指示第一个book节点的year节点值是否大于2006.
返回xs:boolean: true

css 选择器

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值