Python使用ElementTree处理XML的美化

Python中使用ElementTree可以很方便的处理XML,但是产生的XML文件内容会合并在一行,难以看清楚。

如下格式:

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root> 

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML,但是有两个问题:

a. 如果解析的XML已经是美化过的,那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行,如下:

<root>  
    <aa>  
        aatext  
    </aa>  
    <bb>  
        bbtext  
    </bb>  
</root> 
而我想产生如下结果:

<root>  
    <aa>aatext</aa>  
    <bb>bbtext</bb>  
</root> 

于是只能自己写一个美化XML的方法。


我们首先研究一下ElementTree模块中的Element类,使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示:

整个XML就是一个Element,里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符,就可以实现美化XML的目的。


美化代码如下:

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类,参数indent用于缩进,newline用于换行  
    if element:  # 判断element是否有子元素  
        if element.text == None or element.text.isspace(): # 如果element的text没有内容  
            element.text = newline + indent * (level + 1)    
        else:  
            element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1)  
    #else:  # 此处两行如果把注释去掉,Element的text也会另起一行  
        #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level  
    temp = list(element) # 将elemnt转成list  
    for subelement in temp:  
        if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素,说明下一个行是同级别元素的起始,缩进应一致  
            subelement.tail = newline + indent * (level + 1)  
        else:  # 如果是list的最后一个元素, 说明下一行是母元素的结束,缩进应该少一个  
            subelement.tail = newline + indent * level  
        prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作  
          
from xml.etree import ElementTree      #导入ElementTree模块  
tree = ElementTree.parse('test.xml')   #解析test.xml这个文件,该文件内容如上文  
root = tree.getroot()                  #得到根元素,Element类  
prettyXml(root, '\t', '\n')            #执行美化方法  
ElementTree.dump(root)                 #显示出美化后的XML内容
输出结果如下:

<root>  
    <aa>  
        aatext  
        <cc>cctext</cc>  
    </aa>  
    <bb>  
        bbtext  
        <dd>  
            ddtext  
            <ee>eetext</ee>  
        </dd>  
    </bb>  
</root> 


残留问题点:

windows下的换行符是"\r\n",只需将prettyXml方法的第三个参数改为"\r\n",使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入"\r\n".



  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值