Python xpath语法简单使用

xpath语法常用来提取xml和html数据,通过xpath语法获取网页中我们想要的内容,其实xml和html的数据可以看成一个树形的结构,每个树有很多树枝(树枝称为节点),xpath语法提供了在树中查找不同节点的能力

<html>
<head>
<body>
##代码中<html>,<head>,<body>都可以看成是一个个节点,xpath语法可以快速的定位到html代码中的节点
</body>
</head>
</html>

在网络爬虫中通常会把爬虫获取的HTML数据使用xpath语法解析,获取我们想要的结果。

xpath语法选取节点常规用法:
// 代表从全局下,也就是从所有节点中,或者说从所有子孙元素中去查找满足条件的数据

xpath("//div") #从所有子孙元素中查找div,值得注意的是xpath语法返回的是一个列表

@代表选取属性

xpath("//a/@href") #代表获取所有a标签的href属性

. 代表从当前节点获取数据

xpath(".//a/@href") #代表获取当前a标签的href属性

/ 代表从根节点选取

xpath("/div") #从根节点上选取div节点

谓语:谓语用来查找某个特定的节点,说白了就是来帮助我们定位到想要的节点,谓语被嵌在方括号中

xpath("//div[@class='hello']") #在全局下查找class等于hello的div节点
xpath("div[last()]") #获取最后一个div元素

xpath语法个人感觉在爬虫中用的夺得大概就是这些,还是非常方便的,大家可以自己了解一下

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值