Python_XPath

简介

XPath是一门在XML文档中查找信息的语言,被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜索XML文档,不过它也能很好地在HTML文档中工作,并且大部分浏览器也支持通过XPath来查询节点。在Python爬虫开发中,经常使用XPath查找提取网页中的信息,因此XPath非常重要

XPath既然叫Path,就是一路径表达式的形式来指定元素,这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。由于XPath一开始是被用来搜寻XML文档的,所以接下来就以XML文档为例子来讲解XPath

XPath节点

在XPath中,XML文档是被作为节点树来对待的,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。树的根被称为文档节点或者根节点。以下面XML文档为例进行说明

<?xml version="1.0" encoding="ISO-8859-1" ?>
<classroom>
    <student>
        <id>1001</id>
        <name lang = "en">marry</name>
        <age>20</age>
        <country>China</country>
    </student>
</classroom>

❤️ 上面的XML文档中的节点例子包括:< classroom > (文档节点)、< id > 1001 </ id>(元素节点)、< lang=“en” >(属性节点)、marry(文本)

节点关系:父(Parent)、子(Children)、同胞(Sibling)、先辈(Ancestor)、后代(Descendant)

在上面的文档中:
student元素是id、name、age、以及country元素的父
id、name、age、以及country元素都是student元素的子
id、name、age以及country元素都是同胞节点,拥有相同的父节点
name元素的先辈是student元素和classroom元素,也就是此节点的父、父的父等
classroom的后代是student、id、name、age以及country元素,也就是此节点的子,子的子等

XPath语法

XPath使用路径表达式来选取XML文档中的节点或节点集。节点是沿着路径path或者步steps来选取的。接下来的重点是如何取节点,以下面XML文档进行分析

<?xml version="1.0" encoding="ISO-8859-1" ?>
<classroom>
    <student>
        <id
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值