【XPath】网页解析

MingkXr

已于 2024-04-11 20:07:06 修改

阅读量730

点赞数 11

文章标签： python selenium

于 2024-04-11 16:52:20 首次发布

本文链接：https://blog.csdn.net/BY_HEY/article/details/137630205

版权

前言

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取，本节我们来介绍一下 XPath 的基本用法。

一、Xpath 语法

表达式	描述说明
nodename	选取此节点的所有子节点
/	从根节点选取
//	从当前节点选择子孙节点(不考虑它们的位置)
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

上面列举的内容属于常用部分，下面用示例来说明具体的用法：

//div[@class="document"]

这是一个 Xpath 路径表达式，代表的是选择名称为 div，属性 class 的值为 document 的节点。

在 Python 中，会通过 lxml 库，利用 XPath 进行解析(或在使用Selenium 时)。

二、实例应用

1.引入HTML

安装：

pip install lxml

代码：

# 先导入 lxml 库
from lxml import etree

text = """
<div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        <li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着</a></li>
        <li class="pl2" id="sp"><a href="https://book.douban.com/subject/6082808/">百年孤独</a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a></li>
    </ul>
</div>
"""

html = etree.HTML(text)
result = etree.tostring(html, encoding='gbk')
print(result.decode('gbk'))

在上面的实例中，先导入 lxml 库中的 etree 模块，声明一段 HTML 文本，然后使用 etree 的 HTML 类进行初始化，构造一个 Xpath 解析对象。在这里需要注意一点，实例中，声明的 HTML 文本第 1 个节点没有闭合，但是 etree 模块会自动修正。

上面的输出结果如下：

<?xml version='1.0' encoding='gbk'?>
<html><body><div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        </li><li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着
</a></li>
        <li class="pl2"><a href="https://book.douban.com/subject/6082808/">百年孤独<
/a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a><
/li>
    </ul>
</div>
</body></html>

在这里可以看到 li 节点标签已经补全，同时自动添加了 body、html 节点。

2.解析

根据上面引入的HTML，有以下几种方法可以拿到我们想要的数据：

2.1 从根节点选取

用/来从根节点html/body/开始往子级选择一直到a标签

html = etree.HTML(text)
result = html.xpath('/html/body/div/ul/li/a/text()')
print(result)

输出结果：

['红楼梦', '活着', '百年孤独', '1984']

2.2 从当前节点选择子孙节点

html = etree.HTML(text)
result = html.xpath('//li/a/text()')
print(result)

输出结果：

['红楼梦', '活着', '百年孤独', '1984']

2.3 通过@[属性=“xx”]选择标签

html = etree.HTML(text)
result = html.xpath('//li[@id="sp"]/a/text()')
print(result)

输出结果：

['百年孤独']

2.4 多值匹配

属性有时候可能不止 1 个，如下示例：

<li class="pl1 pl2"><a href="https://book.douban.com/subject/4820710/">红楼梦</a></li>

这个时候，要考虑使用 contains() 方法，这个方法需要的参数有：第一个参数是属性名称，第二个参数是属性值。该方法的实现过程是，若第一个参数属性包含第二个参数中的属性值，则可以匹配成功。例如：

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1")]/a/text()')
print(result)

输出结果：

['红楼梦']

2.5 多属性匹配

在节点中，除了单个属性可以有多个值之外，也可以有多个属性。例如：

<li class="pl1 pl2" name="item"><a href="https://book.douban.com/subject/4820710/">百年孤独</a></li>

在这里，使用 and 运算符将多个属性连接：

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "pl1") and @name="item"]/a/text()')
print(result)

输出结果：

['百年孤独']

2.6 XPath 轴

在节点中，除了单个属性可以有多个值之外，也可以有多个属性。例如：

轴名称	含义
parent	上层父节点
child	下层所有子节点
ancestor	上面所有直系节点
descendant	内部所有节点
following	自你以下(排除自己及自己的后代)页面中所有节点
following-sibling	同层下节点
preceding	同层上节点(包括其子节点)
preceding-sibling	同层上节点(不包括子节点)

parent

在这里插入图片描述

child

在这里插入图片描述

ancestor

在这里插入图片描述

descendant

在这里插入图片描述

following

在这里插入图片描述

following-sibling

在这里插入图片描述

preceding

在这里插入图片描述

preceding-sibling

在这里插入图片描述

总结

参考文章：

https://www.jianshu.com/p/7e69eaffd676
https://www.cnblogs.com/wangyi0419/p/11638652.html

MingkXr

关注

11
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
【XPath】网页解析

XPath，全称，即 XML 路径语言，它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取，本节我们来介绍一下 XPath 的基本用法。参考文章：https://www.jianshu.com/p/7e69eaffd676。
复制链接

扫一扫