XPath学习

应用场景

爬取网页时,用于定位元素

基本语法

1、基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径;
如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)
2、星号 * 表示选择所有由星号之前的路径所定位的元素;
方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.
3、属性通过前缀 @ 来指定;
属性的值可以被用来作为选择的准则, normalize-space函数删除了前部和尾部的空格, 并且把连续的空格串替换为一个单一的空格;
count()函数可以计数所选元素的个数;
name()函数返回元素的名称, start-with()函数在该函数的第一个参数字符串是以第二个参数字符开始的情况返回true, contains()函数当其第一个字符串参数包含有第二个字符串参数时返回true;
string-length函数返回字符串的字符数,你应该用<替代<, 用>代替>;
4、多个路径可以用分隔符 | 合并在一起;
child轴(axis)包含上下文节点的子元素, 作为默认的轴,可以忽略不写.;
descendant (后代)轴包含上下文节点的后代,一个后代是指子节点或者子节点的子节点等等, 因此descendant轴不会包含属性和命名空间节点;
parent轴(axis)包含上下文节点的父节点, 如果有父节点的话;
ancestor轴(axis)包含上下节点的祖先节点, 该祖先节点由其上下文节点的父节点以及父节点的父节点等等诸如此类的节点构成,所以ancestor轴总是包含有根节点,除非上下文节点就是根节点本身;
following-sibling轴(axis)包含上下文节点之后的所有兄弟节点;
preceding-sibling 轴(axis)包含上下文节点之前的所有兄弟节点;
following轴(axis)包含同一文档中按文档顺序位于上下文节点之后的所有节点, 除了祖先节点,属性节点和命名空间节点;
following轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点;
descendant-or-self 轴(axis)包含上下文节点本身和该节点的后代节点;
ancestor-or-self 轴(axis)包含上下文节点本身和该节点的祖先节点;
ancestor, descendant, following, preceding 和self轴(axis)分割了XML文档(忽略属性节点和命名空间节点), 不能交迭, 而一起使用则包含所有节点;
5、div运算符做浮点除法运算, mod运算符做求余运算, floor函数返回不大于参数的最大整数(趋近于正无穷), ceiling返回不小于参数的最小整数(趋近于负无穷);

DEMO

//section[@id=‘XXX’]/DIV[2]/NAV[1]/UL[1]/LI/*[text()=’>’]
//SECTION[@class=‘panel b-a clear m_dataTab’]/DIV[1]/A[contains(text(),‘XXX’)]
//SECTION[@id=‘XXXX’]/TABLE[1]/TBODY[1]/TR[position()>1]
//ancestor::td[@align=“center”]/preceding-sibling::td[2]
//div[@class=“xx”]/span[number()<number(//div[@class=“xx”]/span)]/…/preceding-sibling::div[1]/a[@id=“xx”]

参考链接:http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html?channelFrom=bzy_client_7.6.4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值