Python库 - lxml

最新推荐文章于 2024-07-25 00:08:05 发布

司南锤

最新推荐文章于 2024-07-25 00:08:05 发布

阅读量183

点赞数 2

分类专栏： PYTHON库文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_52964132/article/details/140673793

版权

PYTHON库专栏收录该内容

13 篇文章 0 订阅

订阅专栏

lxml 基于两个C库 libxml2 和 libxslt 能够处理XML和HTML，提供了高性能、易用的API，广泛用于网络爬虫、数据抓取和网页解析等场景。

高性能：lxml 利用C语言编写的底层库，处理速度非常快。
易用性：lxml 提供了类似ElementTree的API，使得用户可以轻松上手。
支持XPath和XSLT：lxml 支持XPath查询和XSLT转换，方便进行复杂的文档操作。
错误处理：lxml 提供了详细的错误信息，便于调试。
支持HTML解析：lxml 不仅可以处理XML，还可以处理HTML，包括修复不规范的HTML。

安装lxml

pip install lxml

具体案例及参数设置

from lxml import etree

# 示例HTML
html_content = """
<html>
<head><title>示例页面</title></head>
<body>
    <h1>欢迎使用lxml</h1>
    <ul>
        <li>项目1</li>
        <li>项目2</li>
        <li>项目3</li>
    </ul>
</body>
</html>
"""

# 解析HTML
parser = etree.HTMLParser(encoding='utf-8', recover=True, remove_blank_text=True)
tree = etree.fromstring(html_content, parser)

# 使用XPath提取数据
title = tree.xpath('//title/text()')[0]
h1_text = tree.xpath('//h1/text()')[0]
items = tree.xpath('//li/text()')

print(f"页面标题: {title}")
print(f"H1内容: {h1_text}")
print("列表项:")
for item in items:
    print(item)

参数解释

encoding：指定解析时使用的字符编码，例如 'utf-8'。
recover：如果设置为 True，lxml 会尝试修复不规范的HTML。
remove_blank_text：如果设置为 True，lxml 会移除元素之间的空白文本节点。

代码解释

导入库：首先导入 lxml 的 etree 模块。
示例HTML：定义一个包含HTML内容的字符串。
解析HTML：使用 etree.HTMLParser 创建一个解析器，并使用 etree.fromstring 解析HTML内容。这里设置了 encoding、recover 和 remove_blank_text 参数。
使用XPath提取数据：通过XPath表达式提取页面标题、H1内容和列表项。
输出结果：打印提取到的数据。