python3 网页解析工具1之XPath

本文介绍了XPath,一种在XML和HTML文档中查找信息的语言。XPath支持元素和属性导航,比正则表达式更适用于XML文档查询。文章详细讲解了XPath的节点类型、路径表达式、谓语、通配符、选取若干路径、轴、位置路径表达式和运算符,并通过Python的lxml库展示了XPath在Python爬虫中的实际应用。
摘要由CSDN通过智能技术生成

python 具有一些比较流行的解析库,例如 lxml , 使用的是 XPath 语法,是大众普遍认为的网页文本信息提取的爬虫利器之一。

一. 关于 XPath

XPath 是 XML路径语言(XML Path Language),支持 HTML,是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中查找节点的能力。Xpath 可以通过元素和属性进行导航,相比 正则表达式,它同样可以在 XML 文档中查询信息,甚至使用起来更加简单高效。

在使用它进行爬虫前,先认识一下 XPath 。这里的案列例子引荐 w3school

在 XPath 中,有七种类型的节点:元素(element)属性(attribute)文本(text)命名空间(namespace)处理指令(processing-instruction)注释(commnt)以及文档(根)节点(root)。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

对于一个 XML 文件( HTML 文件可以通过 etree.HTML()方法 转为这种格式) ,他的 DOM 树一般看起来会是下面这样的

DOM

这是一个 XML 文档

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

1.节点关系

这里有节点 bookstorebooktitleauthoryearprice。XML 文档本身就相当于数据结构树,这些节点层级结构看起来是像下面这样的:
DataStructureTree

根据对树的概念,则有以下理解:

    1.  父(Parent): bookstore 元素 为 book元素 的父;book  元素为 title、author、year 以及 price 元素 的父。
    2.  子(Children):book 元素为 bookstore 元素的子;title、author、year 以及 price 元素为 book 元素的子。
    3.  同胞(sibling):title、author、year 以及 price 元素都是同胞。
    4.  先辈(Ancestor):title 元素的先辈是 book 元素和 bookstore 元素;其他 title 的同胞亦是如此。
    5.  后代(Descendant):bookstore 的后代是 book、title、author、year 以及 price 元素;book 的后代为title、author、year 以及 price 元素。

2.如何获取节点信息?
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。


下面为最有用的路径表达式

表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性

下面为根据上面所提到的案例 XML 文档编辑的路径表达式

路径表达式 结果
bookstore 选取 bookstore 元素的所有子节点。
/bookstore 选取根元素 bookstore。
注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang 选取名为 lang 的所有属性。

3谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。

继续使用上面 XML 文档例子,列出带有谓语的一些路径

路径表达式 结果
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

4.选取未知节点
XPath 通配符 * 可用来选取未知的 XML 元素。

通配符 描述
* 配任何元素节点。
@* 配任何属性节点。
node() 匹配任何类型的节点。

这是一个实例

路径表达式 结果
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。

5.选取若干路径

使用 | 运算符,实现选取若干个路径。

这是一个实例

路径表达式 结果
//book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
//title | //price 选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

6.XPath 轴

轴定义相对于当前节点的节点集。

轴名称 结果
ancestor 选取当前节点的所有先辈(父、祖父等)。
ancestor-or-self 选取当前节点的所有先辈(父、祖父等)以及当前节点本身。
attribute 选取当前节点的所有属性。
child 选取当前节点的所有子元素。
descendant 选取当前节点的所有后代元素(子、孙等)。
descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身。
following 选取文档中当前节点的结束标签之后的所有节点。
namespace 选取当前节点的所有命名空间节点。
parent 选取当前节点的父节点。
preceding 选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling 选取当前节点之前的所有同级节点。
self 选取当前节点。

7.位置路径表达式

绝对位置路径/step/step/...
相对位置路径step/step/...

其中,步(step) = 节点测试(node-test)+ 零个或更多谓语(predicate),语法为:轴名称::节点测试[谓语]

下面是一个梳实例

实例 结果
child::book 选取所有属于当前节点的子元素的 book 节点。
attribute::lang 选取当前节点的 lang 属性。
child::* 选取当前节点的所有子元素。
attribute::* 选取当前节点的所有属性。
child::text() 选取当前节点的所有文本子节点。
child::node() 选取当前节点的所有子节点。
descendant::book 选取当前节点的所有 book 后代。
ancestor::book 选择当前节点的所有 book 先辈。
ancestor-or-self::book 选取当前节点的所有 book 先辈以及当前节点(如果此节点是 book 节点)
child::*/child::price 选取当前节点的所有 price 孙节点。

8.XPath 运算符

下面为可用在 XPath 表达式中的运算符列表

运算符 描述 实例 返回值
| 计算两个节点集 //book | //cd 返回所有拥有 book 和 cd 元素
  • 9
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值