一起来学习XPATH,来看看除了正则表达式我们还能怎么抓取数据

参考学习的网站链接http://www.w3school.com.cn/xpath/xpath_intro.asp

首先理清楚一些常识

以此为例

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

参照HTML的格式其实很多都只是换了一下名字而已还是很好上手的

节点(Node) 

<bookstore> (文档节点)
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点) 

基本值(或称原子值,Atomic value)

J K. Rowling
"en"

项目(Item)

项目是基本值或者节点。

 

 

然后是节点关系,父、子、同胞、先辈、后代,可以和树的知识一起理解

 

在语法上面基本上和正则一样,多练多记,实在记不住就要多查了

 

 

 

接下来介绍一下轴,用于定义当前节点的节点集

 

轴的作用就像集合,一次性锁定一大片元素、属性,aoe的伤害啊哈哈哈
在位置路径表达上面,最前面有/就是绝对,没有就是相对

再来看看步,这个就有点像c语言里面的类和对象的赶脚了

 


那么运算符都是通用的也就不介绍了,注意到是除法用div其他基本相同

基本上这里就足够日常的一些使用和查询了
关于它的函数部分一般爬虫也用不到,但为了方便大家也列一下
http://www.w3school.com.cn/xpath/xpath_functions.asp
最后就扔上实例的链接,按需查看,下期见嘻嘻
http://www.w3school.com.cn/xpath/xpath_examples.asp

转载于:https://www.cnblogs.com/xingnie/p/9541393.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值