python minidom读xml

最新推荐文章于 2023-05-24 15:57:35 发布

kiki113

最新推荐文章于 2023-05-24 15:57:35 发布

阅读量8.5k

点赞数

分类专栏： python 文章标签： python 文档 xml encoding processing reference

python 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

原文出处：http://blog.donews.com/limodou/archive/2004/07/15/43609.aspx

python minidom读xml

下面是片段分类的一个示例文件--catalog.xml

<?xml version="1.0" encoding="utf-8"?>

<caption>Python</caption>

</item>

</item>

</catalog>

分类是树状结构，显示出来可能为：

Python

测试

Zope

先简单介绍一下XML的知识，如果你已经知道了可以跳过去。

1. XML文档的编码

此XML文档的编码为utf-8，因此你看到的“测试”其实是UTF-8编码。在XML文档的处理中都是使用UTF-8编码进行的，因此，如果你不写明encoding的话，都是认为文件是UTF-8编码的。在Python中，好象只支持几种编码，象我们常用的GB2312码就不支持，因此建议大家在处理XML时使用UTF-8编码。

2. XML文档的结构

XML文档有XML头信息和XML信息体。头信息如：

<?xml version="1.0" encoding="utf-8"?>

它表明了此XML文档所用的版本，编码方式。有些复杂的还有一些文档类型的定义(DOCTYPE)，用于定义此XML文档所用的DTD或Schema和一些实体的定义。这里并没有用到，而且我也不是专家，就不再细说了。

XML信息体是由树状元素组成。每个XML文档都有一个文档元素，也就是树的根元素，所有其它的元素和内容都包含在根元素中。

3. DOM

DOM是Document Object Model的简称，它是以对象树来表示一个XML文档的方法，使用它的好处就是你可以非常灵活的在对象中进行遍历。

4. 元素和结点

元素就是标记，它是成对出现的。XML文档就是由元素组成的，但元素与元素之间可以有文本，元素的内容也是文本。在minidom中有许多的结点，元素也属于结点的一种，它不是叶子结点，即它存在子结点；还存在一些叶子结点，如文本结点，它下面不再有子结点。

象catalog.xml中，文档元素是catalog，它下面有两种元素：maxid和item。maxid用来表示当前最大的item的id值。每一个item都有一个id属性，id属性是唯一的，在 NewEdit 中用来生成每个分类所对应的代码片段的XML文档名，因此不能重复，而且它是一个递增的值。item元素有一个caption子元素，用来表示此分类项的名称，它还可以包含item元素。这样，就定义了一个树状XML结构，下面让我们看一看如果把它们读出来。

一、得到dom对象

>>> import xml.dom.minidom

>>> dom = xml.dom.minidom.parse('d:/catalog.xml')

这样我们得到了一个dom对象，它的第一个元素应该是catalog。

二、得到文档元素对象

>>> root = dom.documentElement

这样我们得到了根元素(catalog)。

三、结点属性

每一个结点都有它的nodeName，nodeValue，nodeType属性。nodeName为结点名字。

>>> root.nodeName

u'catalog'

nodeValue是结点的值，只对文本结点有效。nodeType是结点的类型，现在有以下几种：

'ATTRIBUTE_NODE'

'CDATA_SECTION_NODE'

'COMMENT_NODE'

'DOCUMENT_FRAGMENT_NODE'

'DOCUMENT_NODE'

'DOCUMENT_TYPE_NODE'

'ELEMENT_NODE'

'ENTITY_NODE'

'ENTITY_REFERENCE_NODE'

'NOTATION_NODE'

'PROCESSING_INSTRUCTION_NODE'

'TEXT_NODE'

这些结点通过名字很好理解。catalog是ELEMENT_NODE类型。

>>> root.nodeType

>>> root.ELEMENT_NODE

四、子元素、子结点的访问

访问子元素、子结点的方法很多，对于知道元素名字的子元素，可以使用getElementsByTagName方法，如读取maxid子元素：

>>> root.getElementsByTagName('maxid')

[<DOM Element: maxid at 0xb6d0a8>]

这样返回一个列表，由于我们的例子中maxid只有一项，因此列表也只有一项。

如果想得到某个元素下的所有子结点(包括元素)，可以使用childNodes属性：

>>> root.childNodes

[<DOM Text node "/n ">, <DOM Element: maxid at 0xb6d0a8>, <DOM Text node "/n ">, <DOM Element: item at 0xb6d918>, <DOM Text node "/n ">, <DOM Element: item at 0xb6de40>, <DOM Text node "/n ">, <DOM Element: item at 0xb6dfa8>, <DOM Text node "/n">]

可以看出所有两个标记间的内容都被视为文本结点。象每行后面的回车，都被看到文本结点。从上面的结果我们可以看出每个结点的类型，本例中有文本结点和元素结点；结点的名字（元素结点）；结点的值（文本结点）。每个结点都是一个对象，不同的结点对象有不同的属性和方法，更详细的要参见文档。由于本例比较简单，只涉及文本结点和元素结点。

getElementsByTagName可以搜索当前元素的所有子元素，包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

这样我们可以遍历childNodes来访问每一个结点，判断它的nodeType来得到不同的内容。如，打印出所有元素的名字：

>>> for node in root.childNodes:

if node.nodeType == node.ELEMENT_NODE:

print node.nodeName

maxid

item

对于文本结点，想得到它的文本内容可以使用: .data属性。

对于简单的元素，如：<caption>Python</caption>，我们可以编写这样一个函数来得到它的内容（这里为Python）。

def getTagText(root, tag):

node = root.getElementsByTagName(tag)[0]

rc = ""