lxml库之etree使用小结

最新推荐文章于 2025-03-03 08:45:00 发布

丙丁火

最新推荐文章于 2025-03-03 08:45:00 发布

阅读量2.3w

点赞数 10

分类专栏：爬虫

本文链接：https://blog.csdn.net/caicaibird0531/article/details/90694849

版权

爬虫专栏收录该内容

11 篇文章

订阅专栏

一、`etree`的`Element`类

1.通过`etree.Element()`创建`XML`树

from lxml import etree

root = etree.Element("root")
print(root.tag)
# 添加子元素
root.append(etree.Element("child1"))
child2 = etree.SubElement(root,"child2")
child3 = etree.SubElement(root,"child3")
# 查看现在的XML元素
print(etree.tostring(root,  pretty_print=True))

2.`etree.Element`的属性

from lxml import etree

root = etree.Element("root",goodmorning='Guten Tag') #设置属性方法1
print(etree.tostring(root))
print(root.get('goodmorning')) #获取属性方法1

root.set("hello","caicaibird") #设置属性方法2
print(root.attrib['hello']) #获取属性方法2
print(etree.tostring(root))

3.`etree.Element`的`text`属性

root.text = "好好学习天天向上"
print(root.text)
print(etree.tostring(root))

二、从字符串和文件中解析

lxml.etree支持多种方式解析XML，主要用到的解析函数是fromstring()和parse()。

1.`fromstring()`函数

fromstring()函数是解析字符串最简单的方法。

some_xml_data = "<root>data</root>"

root = etree.fromstring(some_xml_data)
print(root.tag)
print(etree.tostring(root))

2.`XML()`函数

XML()函数类似于fromstring()函数，通常用于XML化文档。

root = etree.XML("<root>data</root>")
print(root.tag)
print(etree.tostring(root))

3.`HTML()`函数

HTML()函数类似于XML()函数，通常用于HTML化文档。

root = etree.HTML("<p>data</p>")
print(root.tag)
print(etree.tostring(root))

4.`parse()`函数

parse()函数用于解析文件或类文件对象。

from io import BytesIO
some_file_or_file_like_bject = BytesIO(b"<root>data</root>")
tree = etree.parse(some_file_or_file_like_bject)
print(etree.tostring(tree))