数据解析-xpath

1、介绍

XPath,全称为XML Path Language,即XML路径语言,它提供了一种灵活的语法,可以通过元素名称、属性、文本内容以及节点之间的层级关系来定位节点。html是一种静态的标记语言,用于显示数据,而XML强调数据的传输准确和结构化传输,适合用于数据的交换和持久化储存等场景。

2、使用方式

1、实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中;

2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕捉。

3、XPath语法

3.1 选取节点
表达式描述
nodename选中该元素。
/从根节点选取(取子节点)。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)。
.选取当前节点。
选取当前节点的父节点。
*匹配任何元素节点。等同于//
@选取属性。
text()选取文本
3.2 路径表达式
路径表达式结果
//div在文档当中选取所有div标签
//div//a选取所有 div下的所有 a标签。
//div[@class="title"]//a在所有div中找到class值为title的div标签,之后拿他下面所有的a标签
//div[@class="title"]/ul//li在所有div中找到class值为title的div标签,之后那他下面ul标签下面的所有li标签
//div[@class="title"]/ul[2]//li在所有div中找到class值为title的div标签,之后那他下面第二个ul标签下面的所有li标签
//div//a/@href选取所有 div下的所有 a标签的href属性值
//div//a/text()选取所有 div下的所有 a标签的文本内容
`//div/span[1]//div/span[2]`

方法实现相关代码地址:https://gitee.com/justinc666/crawler/tree/master/XPath

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值