数据解析-xpath

Justinc.

已于 2024-09-16 15:49:23 修改

阅读量218

点赞数 4

分类专栏：网络爬虫文章标签： python 爬虫前端

于 2024-09-14 21:38:18 首次发布

本文链接：https://blog.csdn.net/sjc122333/article/details/142266755

版权

5 篇文章 0 订阅

订阅专栏

XPath，全称为XML Path Language，即XML路径语言，它提供了一种灵活的语法，可以通过元素名称、属性、文本内容以及节点之间的层级关系来定位节点。html是一种静态的标记语言，用于显示数据，而XML强调数据的传输准确和结构化传输，适合用于数据的交换和持久化储存等场景。

1、实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中；

2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕捉。

表达式	描述
nodename	选中该元素。
/	从根节点选取（取子节点）。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置（取子孙节点）。
.	选取当前节点。
…	选取当前节点的父节点。
*	匹配任何元素节点。等同于`//`
@	选取属性。
text()	选取文本

路径表达式	结果
`//div`	在文档当中选取所有div标签
`//div//a`	选取所有 div下的所有 a标签。
`//div[@class="title"]//a`	在所有div中找到class值为title的div标签,之后拿他下面所有的a标签
`//div[@class="title"]/ul//li`	在所有div中找到class值为title的div标签,之后那他下面ul标签下面的所有li标签
`//div[@class="title"]/ul[2]//li`	在所有div中找到class值为title的div标签,之后那他下面第二个ul标签下面的所有li标签
`//div//a/@href`	选取所有 div下的所有 a标签的href属性值
`//div//a/text()`	选取所有 div下的所有 a标签的文本内容
`//div/span[1]	//div/span[2]`