Xpath解析

最新推荐文章于 2022-11-09 12:11:28 发布

小吴今天运动了吗

最新推荐文章于 2022-11-09 12:11:28 发布

阅读量301

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/weixin_41628764/article/details/118379658

版权

XPath是一种在XML中查找信息的语言，适用于HTML子集。它利用文档的父子关系进行节点查找。文章介绍了XPath的基本原理，并提供了使用Python的lxml模块进行XPath解析的示例，包括属性筛选和获取元素属性值的方法。

摘要由CSDN通过智能技术生成

一、原理

XPath是在xml中搜索内容的一门语言，html是xml语言的一种子集。

xml的例子：

<book>
    <id>1</id>
    <name>追风筝的人</name>
    <author>
        <nick>卡勒德·胡赛尼</nick>
        <nike>Khaled Hosseini</nick>
    </author>
</book>

结点间存在父子关系，book是id，name，author的父节点，author是nick的父节点。

XPath解析按照文档的父子关系进行解析，可以通过节点间关系进行查找，也可以通过结点名称进行查找。

二、XPath的使用

安装模块：lxml

命令：pip install lxml -i +镜像地址

代码：

from lxml import etree
xml = """<book>
    <id>1</id>
    <name>追风筝的人</name>
    <author>
        <nick>卡勒德·胡赛尼</nick>
        <nick>Khaled Hosseini</nick>
        <div>
            <nick>test text</nick>
        </div>
    </author>
</book>
"""
tree = et