python 爬虫 XPath

最新推荐文章于 2022-08-16 13:43:37 发布

七块的学习笔记

最新推荐文章于 2022-08-16 13:43:37 发布

阅读量333

点赞数

分类专栏：工具

工具专栏收录该内容

33 篇文章 1 订阅

订阅专栏

高手：python3解析库lxml

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

原文：痴海

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。

from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入 lxml 库的 etree 模块，然后声明了一段 HTML 文本，调用 HTML 类进行初始化，这样就成功构造了 XPath 解析对象。这里需要注意的是，HTML 文本中的最后一个 li 节点是没有闭合的，但是 etree 模块可以自动修正 HTML 文本。

这里我们调用 tosting() 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型。这里利用 decode() 方法将其转成 str 类型，结果如下: