Python爬虫之xpath语法及案例使用

最新推荐文章于 2024-08-04 22:57:53 发布

linmeiyun

最新推荐文章于 2024-08-04 22:57:53 发布

阅读量2.2k

点赞数 1

分类专栏：后端 python 文章标签： python 爬虫开发语言学习 pycharm

本文链接：https://blog.csdn.net/linmeiyun/article/details/126891177

版权

本文介绍了Python爬虫中XPath的用途，详细讲解了XPath的路径规则、谓语、通配符、功能函数等核心概念，并通过实战案例演示了如何使用XPath在网页中提取信息。同时，分享了Chrome生成XPath表达式的方法和XPath Helper插件的使用，帮助读者更好地掌握XPath在爬虫项目中的应用。

摘要由CSDN通过智能技术生成

我们在写Python爬虫时，经常需要对网页提取信息，如果用传统正则表达去写会增加很多工作量，此时需要一种对数据解析的方法，也就是本章要介绍的Xpath表达式。

Xpath是什么

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供超过 100 个内置函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有想要定位的节点都可以用 XPath 来选取。

下面介绍实战中常用的几个知识点，详细也可以看W3C介绍：XPath 教程

Xpath语法介绍

路径常用规则

表达式	描述	实例
nodename	选取此节点的所有子节点	xpath('//div')	选取了div节点的所有子节点
/	从根节点选取	xpath('/div')	从根节点上选取div节点
//	选取所有当前节点，不考虑位置	xpath('//div')	选取所有的div节点
.	选取当前节点	xpath('./div')	选取当前节点下的div节点
..	选取当前节点的父节点	xpath('..')	回到上一个节点
@	选取属性	xpath（'//@calss'）	选取所有的class属性

谓语规则

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点

表达式	结果
xpath('/body/div[1]')	选取body下的第一个div节点
xpath('/body/div[last()]')	选取body下最后一个div节点
xpath('/body/div[last()-1]')	选取body下倒数第二个div节点
xpath('/body/div[positon()<3]')	选取body下前两个div节点
xpath('/body/div[@class]')	选取body下带有class属性的div节点
xpath('/body/div[@class="main"]')	选取body下class属性为main的div节点
xpath('/body/div[price>35.00]')	选取body下price元素值大于35的div节点

通配符

通配符来选取未知的XML元素

表达式	结果
xpath（'/div/*'）	选取div下的所有子节点
xpath('/div[@*]')	选取所有带属性的div节点

取多个路径

使用“|”运算符可以选取多个路径

表达式	结果
xpath('//div\|//table')	选取所有的div和table节点

功能函数

使用功能函数能够更好的进行模糊搜索

函数	用法	解释
starts-with	xpath('//div[starts-with(@id,"ma")]')	选取id值以ma开头的div节点
contains	xpath('//div[contains(@id,"ma")]')	选取id值包含ma的div节点
and	xpath('//div[contains(&

最低0.47元/天解锁文章

linmeiyun

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之xpath语法及案例使用

表达式描述实例nodename选取此节点的所有子节点选取了div节点的所有子节点/从根节点选取从根节点上选取div节点//选取所有当前节点，不考虑位置选取所有的div节点.选取当前节点选取当前节点下的div节点..选取当前节点的父节点回到上一个节点@选取属性选取所有的class属性以上就是利用XPath的所有用法，从常用语法，到案例练习都走了一遍。
复制链接

扫一扫