Xpath使用

最新推荐文章于 2024-04-19 13:10:23 发布

Jayj1997

最新推荐文章于 2024-04-19 13:10:23 发布

阅读量294

点赞数

分类专栏： python 文章标签： Xpath使用 Python学习

本文链接：https://blog.csdn.net/Jayj1997/article/details/100663629

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

我的Python学习19/9/9

Xpath学习

Xpath学习

爬虫，避免不了使用Xpath工具，Xpath是一门在XML文档中查找信息的语言，可以用来在XML文档中对元素和属性进行遍历。所以在学习之余发一篇博客加深印象。

Xpath节点

在Xpath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（又称为根节点）

<?xml version="1.0" encoding=""?>

<bookshop>

<book>
  <title lang="en">Fear: Trump in the White House</title>
  <author>Bob Woodward</author> 
  <year>2018</year>
  <price>30</price>
</book>

</bookstore>

上面的XML文档中的节点例子：

<bookshop> 文档节点
<author> Bob Woodward</author> 元素节点
lang = "en" 属性节点

基本值
基本值是无父或无子的节点。
基本值的例子：

Bob Woodward
"en"

节点关系
父（parent）
在上面的例子中，book的元素是title，author，year，price元素的父。
子（children）
元素节点可有零个、一个或多个子
在上面的例子中，title、author、year、price都是book元素的子。
同胞(sibling)
在上面的例子中，title、author、year、price都是book元素的同胞。
先辈（Ancestor）
在上面的例子中，title元素的先辈是book元素和bookshop元素。
后代（Descendant）
在上面的例子中，bookshop的后代是book、title、author、year、price元素

XML实例文档

<?xml version="1.0" encoding=""?>

<bookshop>

<book>
  <title lang="eng">Fear: Trump in the White House</title>
  <price>30</price>
</book>

<book>
  <title lang="eng">LearnPython</title>
  <price>20</price>
</book>

</bookshop>

选取节点
Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。
下面列出了Xpath的路径表达式

表达式	描述
nodename	选取此节点的所有节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的所有符合条件节点、不考虑位置
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

路径表达式	结果
bookshop	选取bookshop元素的所有子节点
/bookshop	选取根元素bookshop
bookshop/book	选取属于bookshop的子元素的所有book元素
//book	选区所有book子元素，而不管它们在文档中的位置
bookshop//book	选择属于bookshop元素的后代的所有book元素，而不管他们位于bookshop的位置
//@lang	选区名为lang的所有属性

谓语（predicates）
谓语用来查找某个特定的节点或者包含某个特定的值的节点。
谓语被嵌套在方括号内。

路径表达式	结果
/bookshop/book[1]	选取属于bookstore子元素的第一个book元素
/bookshop/book[last()]	选取属于bookshop子元素的最后一个book元素
/bookshop/book[last()-1]	选取属于bookshop子元素的倒数第二个book元素
/bookshop/book[position()< 3]	选取最前面的两个属于bookshop元素的子元素的book元素
//title[@lang]	选取所有拥有名为lang的属性的title元素
//title[@lang=‘en’]	选取所有title元素，且这些元素拥有值为en的lang属性
/bookshop/book[price>50]	选取bookshop元素的所有book元素，且其中的price元素值须小于50
/bookshop/book[price> 50]/title	选取bookshop元素中的book元素的所有title元素且price值必须大于50

选取未知节点
Xpath通配符可以用来选取未知的XML元素

通配符	描述
*	匹配任何元素
@*	匹配任何属性节点
node（）	匹配任何类型的节点

实例：

路径表达式	结果
/bookshop/*	选取bookshop元素的所有子元素
//*	选取文档中的所有元素
//title[@*]	选取所有带有属性的title元素

选取若干路径
通过在路径表达式中使用 “|” 运算符，可以选取若干路径

(因为 | 运算符会混淆表格，所以就按格式写了）

路径表达式结果
//book/title | //book/price （选取book元素的所有title和price元素）
//title | //price （选取文档中所有title和price元素）
/bookshop/book/title | //price （选取属于 bookshop 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。）

XMl实例文档

“books.xml”:

<?xml version="1.0" encoding=""?>

<bookshop>

<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
  <price>30.00</price>
</book>

<book category="CHILDREN">
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

<book category="WEB">
  <title lang="en">XQuery Kick Start</title>
  <author>James McGovern</author>
  <author>Per Bothner</author>
  <author>Kurt Cagle</author>
  <author>James Linn</author>
  <author>Vaidyanathan Nagarajan</author>
  <year>2003</year>
  <price>49.99</price>
</book>

<book category="WEB">
  <title lang="en">Learning XML</title>
  <author>Erik T. Ray</author>
  <year>2003</year>
  <price>39.95</price>
</book>

</bookstore>
# code from w3school.com

选取所有title

/bookshop/book/title

选取第一个book的title

/bookshop/book[1]/title
#这里w3c的标准以1为第一个节点，日常编写应该是0

选取所有价格

/bookshop/book/price/text()

选取价格高于35的price节点

/bookshop/book[price>35]/price

选取价格高于35的title节点

/bookshop/book[price>35]/title

大概就是这样，在实战中肯定不是去用xpath找这样的节点，只是便于理解，具体还需要自己经历，学习资料来自w3c.com

Jayj1997

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Xpath使用

我的Python学习19/9/9Xpath学习Xpath节点XML实例文档XMl实例文档Xpath学习爬虫，避免不了使用Xpath工具，Xpath是一门在XML文档中查找信息的语言，可以用来在XML文档中对元素和属性进行遍历。所以在学习之余发一篇博客加深印象。Xpath节点在Xpath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（又称为根节点）<?x...
复制链接

扫一扫