Python_XPath

最新推荐文章于 2023-05-09 15:39:06 发布

苦涩2020

最新推荐文章于 2023-05-09 15:39:06 发布

阅读量564

点赞数 2

分类专栏： Python 文章标签： XPath Python

本文链接：https://blog.csdn.net/UserPython/article/details/83143273

版权

文章目录

简介

XPath是一门在XML文档中查找信息的语言，被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜索XML文档，不过它也能很好地在HTML文档中工作，并且大部分浏览器也支持通过XPath来查询节点。在Python爬虫开发中，经常使用XPath查找提取网页中的信息，因此XPath非常重要

XPath既然叫Path，就是一路径表达式的形式来指定元素，这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。由于XPath一开始是被用来搜寻XML文档的，所以接下来就以XML文档为例子来讲解XPath

XPath节点

在XPath中，XML文档是被作为节点树来对待的，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。树的根被称为文档节点或者根节点。以下面XML文档为例进行说明

<?xml version="1.0" encoding="ISO-8859-1" ?>
<classroom>
    <student>
        <id>1001</id>
        <name lang = "en">marry</name>
        <age>20</age>
        <country>China</country>
    </student>
</classroom>

❤️ 上面的XML文档中的节点例子包括：< classroom > (文档节点)、< id > 1001 </ id>(元素节点)、< lang=“en” >(属性节点)、marry(文本)

节点关系：父（Parent）、子（Children）、同胞（Sibling）、先辈（Ancestor）、后代（Descendant）

在上面的文档中：
student元素是id、name、age、以及country元素的父
id、name、age、以及country元素都是student元素的子
id、name、age以及country元素都是同胞节点，拥有相同的父节点
name元素的先辈是student元素和classroom元素，也就是此节点的父、父的父等
classroom的后代是student、id、name、age以及country元素，也就是此节点的子，子的子等

XPath语法

XPath使用路径表达式来选取XML文档中的节点或节点集。节点是沿着路径path或者步steps来选取的。接下来的重点是如何取节点，以下面XML文档进行分析

<?xml version="1.0" encoding="ISO-8859-1" ?>
<classroom>
    <student>
        <id

最低0.47元/天解锁文章

苦涩2020

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python_XPath

文章目录简介XPath节点简介XPath是一门在XML文档中查找信息的语言，被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜索XML文档，不过它也能很好地在HTML文档中工作，并且大部分浏览器也支持通过XPath来查询节点。在Python爬虫开发中，经常使用XPath查找提取网页中的信息，因此XPath非常重要XPath既然叫Path，就是一路径表达式的形式来指定元素...
复制链接

扫一扫