1、介绍
XPath,全称为XML Path Language,即XML路径语言,它提供了一种灵活的语法,可以通过元素名称、属性、文本内容以及节点之间的层级关系来定位节点。html是一种静态的标记语言,用于显示数据,而XML强调数据的传输准确和结构化传输,适合用于数据的交换和持久化储存等场景。
2、使用方式
1、实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中;
2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕捉。
3、XPath语法
3.1 选取节点
表达式 | 描述 |
---|---|
nodename | 选中该元素。 |
/ | 从根节点选取(取子节点)。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)。 |
. | 选取当前节点。 |
… | 选取当前节点的父节点。 |
* | 匹配任何元素节点。等同于// |
@ | 选取属性。 |
text() | 选取文本 |
3.2 路径表达式
路径表达式 | 结果 |
---|---|
//div | 在文档当中选取所有div标签 |
//div//a | 选取所有 div下的所有 a标签。 |
//div[@class="title"]//a | 在所有div中找到class值为title的div标签,之后拿他下面所有的a标签 |
//div[@class="title"]/ul//li | 在所有div中找到class值为title的div标签,之后那他下面ul标签下面的所有li标签 |
//div[@class="title"]/ul[2]//li | 在所有div中找到class值为title的div标签,之后那他下面第二个ul标签下面的所有li标签 |
//div//a/@href | 选取所有 div下的所有 a标签的href属性值 |
//div//a/text() | 选取所有 div下的所有 a标签的文本内容 |
`//div/span[1] | //div/span[2]` |
方法实现相关代码地址:https://gitee.com/justinc666/crawler/tree/master/XPath