XPath基础

最新推荐文章于 2023-09-21 16:36:56 发布

啦哆咪

最新推荐文章于 2023-09-21 16:36:56 发布

阅读量154

点赞数

分类专栏：爬虫文章标签： xpath

本文链接：https://blog.csdn.net/qq_43713303/article/details/113358217

版权

6 篇文章 0 订阅

订阅专栏

Xpath基础

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。
在这里插入图片描述

首先明确一点，XPath是基于文档树来查找元素的，其根是document

使用中括号[]可以在选取的节点里加一些条件，从而选出满足条件的节点

[n]：选取作为第n个孩子的节点，比如：//body/div[1]选取body下的第一个div子节点，注意：//div[1]表示选取所有div里作为第1个孩子的div，所有会有很多个，要谨慎与//搭配，下面几个选位置的同理
[last()]：选取作为最后一个孩子的节点，比如//body/div[last()]
[position()<n]：选取作为小于n的孩子的节点，比如//body/div[position()<3]，表示选择body下前两个div子节点
[@属性]：选取包含指定属性的节点，常与选取属性节点搭配，如//div[@class]，表示选取所有div里，包含class属性的节点
[@属性=x]：选取指定属性值为x的节点，如//div[@id=xyz]，表示选取所有div里id=xyz的节点
[contains(@属性,x)]：选取指定属性值包括x的节点，如//div[contains(@class,'x')]选取div中class属性值里包含x的节点

*，表示通配符，即所有名字匹配，如//div/*，表示div下所有的子节点，再如//div[@*]，表示拥有任意属性的div

常用如下

|(并)  or  and  +  -  *  div(除法)  =(等于)  !=  <  <=  >  >=  mod(求余)

比如：

//a | //span  （所有的a标签和span标签）
//div[@id=a and @class=b]   （id=a并且class=b的div）

关注

专栏目录