python的XML处理模块ElementTree

ElementTree是python的XML处理模块,它提供了一个轻量级的对象模型。它在Python2.5以后成为Python标准库的一部分,但是Python2.4之前需要单独安装。在使用ElementTree模块时,需要import xml.etree.ElementTree的操作。
ElementTree表示整个XML节点树,而Element表示节点数中的一个单独的节点。

构建XML文件


ElementTree(tag),其中tag表示根节点,初始化一个ElementTree对象。
Element(tag, attrib={}, **extra)函数用来构造XML的一个根节点,其中tag表示根节点的名称,attrib是一个可选项,表示节点的属性。
SubElement(parent, tag, attrib={}, **extra)用来构造一个已经存在的节点的子节点
Element.text和SubElement.text表示element对象的额外的内容属性,Element.tag和Element.attrib分别表示element对象的标签和属性。
ElementTree.write(file, encoding='us-ascii', xml_declaration=None, default_namespace=None, method='xml'),函数新建一个XML文件,并且将节点数数据写入XML文件中。
#encoding=utf-8
import xml.etree.ElementTree as ET

#新建xml文件
def buildNewsXmlFile():
        #设置一个新节点,并设置其标签为root
        root = ET.Element("root")

        #在root下新建两个子节点,设置其名称分别为sina和chinabyte
        sina = ET.SubElement(root, "sina")
        chinabyte = ET.SubElement(root, "chinabyte")

        #在sina下新建两个子节点,设置其节点名称分别为number和first
        sina_number = ET.SubElement(sina, "number")
        sina_number.text = "1"
        sina_first = ET.SubElement(sina, "first")
        sina_first.text = "http://roll.tech.sina.com.cn/internet_all/index_1.shtml"

        #在chinabyte下新建两个子节点,设置其节点名称为number和first
        chinabyte_number = ET.SubElement(chinabyte, "number")
        chinabyte_number.text = "1"
        chinabyte_first = ET.SubElement(chinabyte, "first")
        chinabyte_first.text = "http://www.chinabyte.com/more/124566.shtml"

        #将节点数信息保存在ElementTree中,并且保存为XML格式文件
        tree = ET.ElementTree(root)
        tree.write("urlfile.xml")


解析和修改XML文件


ElementTree.parse(source, parser=None),将xml文件加载并返回ElementTree对象。parser是一个可选的参数,如果为空,则默认使用标准的XMLParser解析器。
ElementTree.getroot(),得到根节点。返回根节点的element对象。

Element.remove(tag),删除root下名称为tag的子节点

以下函数,ElementTree和Element的对象都包含。
find(match),得到第一个匹配match的子节点,match可以是一个标签名称或者是路径。返回个element
findtext(match,default=None),得到第一个配置的match的element的内容
findall(match),得到匹配match下的所有的子节点,match可以是一个标签或者是路径,它会返回一个list,包含匹配的elements的信息
iter(tag),创建一个以当前节点为根节点的iterator。

这里有一个xml文件
<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

现在是解析xml文件的代码
#解析Xml文件
def parseXmlFile(xml_name):
        #将XMl文件加载并返回一个ELementTree对象
        tree = ET.parse(xml_name)

        #得到根节点
        root = tree.getroot()

        #输出根节点的所有子节点的名称和属性
        for child in root:
            print child.tag, child.attrib

        #得到第一个匹配country标签的Element对象
        country = tree.find("country")

        #得到sina的SubElement
        for sub_tag in country:
                print sub_tag.text

        #得到所有匹配country标签的Element对象的list集合
        list_country = tree.findall("country")

        for country in list_country:
                for sub_tag in country:
                        print sub_tag.text
	#修改xml文件
        for rank in tree.iter('rank')
        new_rank = int(rank.text)+1
        rank.text = str(new_rank)
        rank.set('updated', 'yes')
        tree.write(xml_name)
第一个print的输出是:country {'name':‘Liechtenstein’}
country {'name':‘Singapore ’}
country {'name':‘Panama ’}
第二个print的输出是:1,2008,14100
第三个print的输出是:1,2008,14100,4,2011,59900,68,2011,13600
修改后的xml文件为
<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank updated="yes">2</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank updated="yes">5</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank updated="yes">69</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python中的xml.etree.ElementTree是一个用于解析和操作XML文档的模块。它提供了一种简单的方式来读取和写入XML文件,并且可以轻松地遍历XML文档的元素和属性。使用xml.etree.ElementTree模块,可以将XML文档转换为Python对象,然后对其进行操作和处理。 ### 回答2: Python xml.etree.elementtree 是一个 Python 模块,用于解析 XML 文档并创建 XML 元素树。这个模块提供了一种简单且高效的方式来处理 XML 数据,可以帮助开发者轻松地构建 Python 对象/字典和 XML 文档之间的映射。 使用 xml.etree.ElementTree,可以将 XML 文档转换为元素对象树,然后使用元素对象进行文档处理。使用这个模块可以很容易地将 XML 数据解析和转换为 Python 中的数据类型,例如列表、字典和字符串等。同时,ElementTree 还支持 XPath 表达式(XPath 是一种用于选取 XML 文档中数据的语言)。 ElementTree 将一个 XML 文档解析成一个通用的元素树结构,将每个元素作为 Python 对象中的一个元素。在几乎所有的XML处理扩展中,ElementTree都是标准的API。其重要的特点包括: 1. 简单易用的API,支持解析和生成XML; 2. 支持遍历解析XML文档; 3. 支持XPath定位; 4. 遵守XML标准,并且能够正确处理XML文档中的编码格式、属性和命名空间等细节; 5. 兼容Python3与Python2. 在Python应用领域中,XML是一种常见格式,如SOAP和RESTful Web Services、HTML、配置文件等等。使用 ElementTree,可以方便地处理这些数据供应用完成数据处理,构建XML数据请求和响应等。总之,Python xml.etree.elementtree 是一个基于 XML 的开发框架,可用于快速,可靠地构建和解析 XML 文档。 ### 回答3: Python 中的 xml.etree.elementtree 是一个用于操作 XML 数据的库。ElementTree 是 Element 的树形结构,允许对其进行操作并将其转换为 XML 文件或字符串。它被广泛应用于 Web 开发和数据处理,例如在面向 XML 数据的 Web 应用程序和配置文件中。 ElementTree 提供了一个对 XML 元素进行递归访问的 API。通过向 XML 解析器提供 XML 文件路径或 URL,ElementTree 可以读取 XML 文件并将其转换为一个 element 对象。通过 element 对象,我们可以获得元素的文本内容、属性、子元素、标签等信息。 ElementTree 还提供了一些实用函数,帮助我们轻松地操作 XML 数据。例如,我们可以使用 find() 和 findall() 函数搜索 Element 中的子元素,并使用 set() 函数设置元素的属性、text 属性来获取或设置元素的文本内容。 在使用 xml.etree.elementtree 进行 XML 数据处理时,我们还可以使用 lxml、BeautifulSoup 和 html5lib 等库,以便更方便地解析、操作和处理 XML 数据。 总之,Python 中的 xml.etree.elementtree 提供了强大的 XML 数据处理功能,使得我们可以轻松地访问、解析和操作 XML 数据。无论是 Web 应用程序还是常规数据处理ElementTree 都是一个值得信赖和广泛运用的库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值