XML(the Extensible Markup Language)格式为设计特定领域的标记语言提供了一个框架,它有时被用于表示已被标注的文本和词汇资源,不同于HTML标签是预定义的,XML允许我们组建自己的标签,不同于数据库,XML允许创建的数据不必事先指定其结构,它允许有可选、可重复的元素。
Python的标准库xml.etree.ElementTree可以直接调用来处理XML格式的文档,这里主要参考博客Python标准库之xml.etree.ElementTree。
在处理XML格式的文档初始阶段,遇到了两个问题。
·一、编辑大容量XML文本
一是如何打开XML格式的文档查看里面的内容,因为之前没有处理过XML格式的文档,所以我通过别人的建议进行尝试的软件主要有1、记事本,2、excel导入打开,3、notepad++,4、sublime ,5、UltraEdit(据说是处理XML格式文件采用比较多的一个软件)。
然而,因为待处理的XML格式的文档所占内存有1.5G,所以以上软件都是处理到一半,就直接失去响应,进程中断(注:运行环境是32位笔记本电脑)。
最后,通过多方查找资料,安装了软件VEDIT(具体的介绍参考