xpath学习笔记

xpath

xpath是在XML文件中搜索内容的一门语言,html是xml的一个子集

from lxml import etree

tree=etree.HTML("")#引号内填入html文档
tree=etree.XML("")#引号内填入XML文档

查找方式

可以通过tree进行查找

tree.xpth()

括号内的参数按照/root/point1/point2类似文件目录的格式,于是我们可以很容易的从html文件的根节点开始找到我们想要的节点

在同一级中可能会存在多个同类节点

  • 可以用point[1]的方式指定是查找第几个,注意下标从1开始
  • 可以用point[@属性='属性值']的方式筛选
另外
  • 可以在节点路径中使用//,例如/root//point2,这样会查找到root节点下所有的point2节点,此时不管在point2和roo之间有没有其他节点都能找到所有的point2节点
  • 可以在节点路径中使用*,例如/root/*/point2,*是通配符,表示匹配任意节点,所以此时会查找到root的所有子节点中的point2节点,需要注意的是,此时如果直接存在于root节点下point2节点不会被查找到,因为他们之间没有节点用于匹配通配符*
  • 可以在节点路径中使用text()获取节点中的内容,例如html/body/h1/text(),这样就会获得对应的h1标签中的文本信息
  • 在从已经获取到的子节点继续查找时,使用相对查找的方式./xxx
  • 在获取节点属性时使用@属性的方式,例如./@href

2023.3.19

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星眺北海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值