2021-03-13

最新推荐文章于 2024-07-23 14:36:35 发布

小林的秃头史

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量83

点赞数 1

分类专栏：笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_42777402/article/details/114751199

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Xpath相关

节点
检索

初始化

from lxml import etree
resp = ''' '''#html文本文件
html = etree.HTML(resp)

节点

 . 代表当前节点 
 ..代表上一级节点【父节点】
 / 代表子级某个节点
 / 代表子级，亲儿子，一层的关系   （指定下一级别搜寻）
 // 代表子级，子孙后代，多层关系  （可跨级别搜寻）
 @  选取属性

检索

属性检索

根据属性具体判断某一个标签，可以通过标签名[属性值判断式] 来定位，例
如：

.//div[@class=""]

属性值可以为标签内的任何属性，例如div、class、style、href等，包括自定
义属性

包含检索

由于html是标记语言，所以他是没有报错机制以及严格的格式检测。但是xpath有极其严格的语言和检测，所以xpath的书写通常需要包容html的不规则语言。
html标签的id属性具有唯一性，class具有通用性，而且空格是可以随意添加的。如果不能精确匹配到某一个具体的字符串，xpath可以采用包含检测的函数来指定大致的标签。
以检索所有文本内容包含“python”的div标签为例：

.//div[contains(text(),"python")]

与、或、非

在这里插入图片描述

特定标签的选取

[1]

通配标签返回的是一个列表，里面为空或者一些元素。xpath支持取具体值，例如去列表的第一个元素，[1]就可以拿到；第二个值就是[2]。
值得注意的是列表的下角标从1开始，不像python那样从0开始

position()

position函数会返回当前的位置值，拿到值之后就可以对值进行判断选取。
可以利用position函数进行取值筛选，例如取除第一个外，所有div标签：

.//div[position()>1]

last()

取列表最后一个元素

.//div[last()]

position()返回的是当前标签的位置号，last()也是返回当前标签的最后一个位置号，所以他们可以进行比较

Xpath的轴

仅记录一些实用轴
following || 选取文档中当前节点的结束标签之后的所有节点。
preceding || 选取文档中当前节点的开始标签之前的所有节点。
ancestor || 选取当前节点的所有先辈（父、祖父等）。
descendant || 选取当前节点的所有后代元素（子、孙等）。
descendant-or-self || 选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
attribute || 选取当前节点的所有属性。
具体使用：

html.xpath(".//div/ancestor::*")#选取当前节点的所有先辈（父、祖父等）,向上的一个全局检索
html.xpath(".//table/attribute::*")# attribute 选取当前节点的所有属性。

小林的秃头史

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-13

Xpath相关节点检索属性检索包含检索与、或、非特定标签的选取[1]position()last()Xpath的轴初始化from lxml import etreeresp = ''' '''#html文本文件html = etree.HTML(resp)节点 . 代表当前节点 ..代表上一级节点【父节点】 / 代表子级某个节点 / 代表子级，亲儿子，一层的关系（指定下一级别搜寻） // 代表子级，子孙后代，多层关系（可跨级别搜寻） @ 选取属性检索属性检索根据
复制链接

扫一扫

专栏目录