一步一步学爬虫（3）网页解析之xpath语法

最新推荐文章于 2023-07-01 19:59:12 发布

山哥ol

最新推荐文章于 2023-07-01 19:59:12 发布

阅读量1.1k

点赞数

分类专栏： Python爬虫文章标签：爬虫 html python

本文链接：https://blog.csdn.net/alijunshan/article/details/128456543

版权

一步一步学爬虫（3）网页解析之xpath语法

3.1 网页解析之xpath语法

3.1 网页解析之xpath语法

XPath，全称是 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取。本节我们就来了解下 XPath 的基本用法。

3.1 .1 xpath概览

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。

XPath 于 1999 年 11 月 16 日成为 W3C 标准，它被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用，更多的文档可以访问其官方网站：https://www.w3.org/TR/xpath/。

3.1.2 xpath常用规则

表 XPath 常用规则

表　达　式	描　　述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

以上列出了 XPath 的常用匹配规则，示例如下：
//title[@lang='eng']
这就是一个 XPath 规则，它代表选择所有名称为 title，同时属性 lang 的值为 eng 的节点。后面会通过 Python 的 lxml 库，利用 XPath 进行 HTML 的解析。

3.1.3 准备工作

使用之前，首先要确保安装好 lxml 库。如尚未安装，可以使用 pip3 来安装：
pip3 install lxml

3.1.4 实例引入

现在通过实例来感受一下使用 XPath 对网页进行解析的过程，相关代码如下：

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
# 创建一个HTML实例
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入 lxml 库的 etree 模块，然后声明了一段 HTML 文本，调用 HTML 类进行初始化，这样就成功构造了一个 XPath 解析对象。这里需要注意的是，HTML 文本中的最后一个 li 节点是没有闭合的，但是 etree 模块可以自动修正 HTML 文本。
这里我们调用 tostring 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型。这里利用 decode 方法将其转成 str 类型，结果如下：

<html>
  <body>
    <div>
      <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
    </div>
  </body>
</html>

可以看到，经过处理之后，li 节点标签被补全，并且还自动添加了 body、html 节点。
另外，也可以直接读取文本文件进行解析，示例如下：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

其中 test.html 的内容就是上面例子中的 HTML 代码，内容如下：

<div>
  <ul>
    <li class="item-0"><a href="link1.html">first item</a></li>
    <li

最低0.47元/天解锁文章

山哥ol

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
一步一步学爬虫（3）网页解析之xpath语法

网页解析之xpath语法
复制链接

扫一扫

专栏目录

一步一步学爬虫（3）网页解析之xpath语法

一步一步学爬虫（3）网页解析之xpath语法

3.1 网页解析之xpath语法

3.1 .1 xpath概览

3.1.2 xpath常用规则

3.1.3 准备工作

3.1.4 实例引入

“相关推荐”对你有帮助么？