Python学习之解析xml文件_confchart-CSDN博客

本文链接：https://blog.csdn.net/butcher8/article/details/46275273

本文介绍了在Python中解析XML文件的方法，包括xml库的选择、需求分析、实现过程（读取、遍历、创建、更新XML）以及日志记录。推荐使用xml.etree.ElementTree库，通过递归和相关API实现XML数据的处理。最后，强调了面向对象设计和代码模块化的重要性。

摘要由CSDN通过智能技术生成

序

抛开windows开发python的不快，毕竟没给配台机，只整了个hp商务本，虚拟机什么的还是再缓缓吧。Buddy看完成这么顺利，立刻又给了个开发任务，全当是在考察我吧，毕竟才来三周，妥妥地不能怠慢啊。

根据testcase的category规则来解析xml文件，需求不能再简单了，这次让我捡起许久不用的java似乎也不大可能，哎，越来越pythonic了呢，捂脸逃。。。

XML库

先来个调研吧，好家伙果然有好多库可以处理xml，下面是pycoders翻译过来的一些介绍：

xml.dom.*
该模块即W3C DOM API的实现。如果有处理DOM API的需要，那么这个模块很适合。
PS：在 xml.dom 包里面有许多模块，注意它们之间的不同。
xml.sax.*
该模块是SAX API的实现。这个模块牺牲了便捷性来换取速度和内存占用。SAX是一个基于事件的API，这就意味着它可以“在空中”(on the fly)处理庞大数量的的文档，不用完全加载进内存1。
xml.parser.expat
该模块是一个直接的，低级一点的基于C的expat的语法分析器2。expat接口基于事件反馈，有点像SAX但又不太像，因为它的接口并不是完全规范于expat库的。
xml.etree.ElementTree(以下简称ET)
它提供了轻量级的Python式的API ，它由一个C实现来提供。相对于 DOM来说，ET快了很多3。而且有很多令人愉悦的API可以使用。相对于SAX来说，ET也有ET.iterparse提供了“在空中”的处理方式，没有必要加载整个文档到内存。ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。

最后原文推荐，尽可能的使用ET来处理XML，除非我们有什么非常特别的需要。好吧，至于几种方式的比较，为何ET为最优选择，注释3的基准中也有原作者的一些性能分析，这里先放在一边。

需求

读xml配置获取testcase的分类feature
读xml文件获取test plan中的case
解析case中的keywords信息
按keyword将case分类
将分类后的case写入不同feature名的新xml
记录整个操作过程中日志信息

实现

由于对需求和业务不是特别深入的理解，为了方便日后进行需求的扩展，自然要考虑OOP的方式来实现，避免到时候需求有变，程序中留下各种hard code。

Import

ElementTree在Python标准库中有两种实现。一种是纯Python实现例如 xml.etree.ElementTree，另外一种是xml.etree.cElementTree，它的速度稍微快一点。
PS：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

这是一个让Python不同的库使用相同API的一个比较常用的办法。还是那句话，你的编译环境和别人的很可能不一样，所以这样做可以防止一些莫名其妙的小问题。注意：从Python3.3开始，你没有必要这么做了，因为ElementTree模块会自动寻找可用的C库来加快速度。所以只需要import xml.etree.ElementTree就可以了。但是在3.3正式推出之前，最好还是上面提供的那段代码。