【爬虫学得好，基础少不了】：XPath语法和lxml模块(详解)

最新推荐文章于 2022-04-03 17:35:36 发布

金鞍少年

最新推荐文章于 2022-04-03 17:35:36 发布

阅读量332

点赞数 2

分类专栏：爬虫学习笔记文章标签： python xpath lxml

本文链接：https://blog.csdn.net/weixin_42444693/article/details/105061081

版权

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

xpath helper插件是一款免费的chrome爬虫网页解析工具。可以帮助用户解决在获取xpath路径时无法正常定位等问题。该插件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码，同时你还能对查询出来的代码进行编辑，而编辑出的结果将立即显示在旁边的结果框中。

Chrome插件XPath Helper。

安装方法：

https://download.csdn.net/download/weixin_42444693/12265783 ，下载安装包解压到本地。 (本人实测上传，记得看压缩包说明)
谷歌浏览器输入 chrome://extensions/ 进入拓展程序界面
打开开发者模式，选择加载已解压的扩展程序，选择刚刚解压的文件路径打开即可
重启浏览器使用
提示：如果删除文件夹会导致拓展功能无法使用，最好不要将压缩包解压到桌面安装使用

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()❤️]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=‘eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price&