linux下libxml库编程

最新推荐文章于 2024-09-07 11:47:04 发布

分懂课堂

最新推荐文章于 2024-09-07 11:47:04 发布

阅读量1.4k

点赞数

分类专栏： C/C++ 文章标签： linux 文档 xml null struct properties

C/C++ 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

1 编写说明

本文档主要介绍XML的基本知识及利用如何利用libxml来操作xml文件。

2 XML 基础

XML是eXtensible Markup Language的缩写，它是一种可扩展性标识语言, 能够让你自己创造标识，标识你所表示的内容。DOM全称是Document Object Model(文档对象模型)，定义了一组与平台和语言无关的接口，以便程序和脚本能够动态访问和修改XML文档内容、结构及样式。XML创建了标识，而 DOM的作用就是告诉程序如何操作和显示这些标识。

XML将数据组织成为一棵树，DOM通过解析XML文档，为XML文档在逻辑上建立一个树模型，树的节点是一个个的对象。这样通过操作这棵树和这些对象就可以完成对XML文档的操作，为处理文档的所有方面提供了一个完美的概念性框架。

XML 中共有12种节点类型，其中最常见的节点类型有5种：
元素：元素是 XML 的基本组成单元。，描述XML的基本信息。
属性：属性节点包含关于元素节点的信息，通常包含在元素里面，描述元素的属性。
文本：包含许多文本信息或者只是空白。
文档：文档节点是整个文档中所有其它节点的父节点。
注释：注释是对相关的信息进行描述、注释。

3 LibXml 介绍

需求安装包：libxml2 和libxm2-devel，其中libxml主要包括.so文件，libxml2-devel 包括开发文档和所有的.h文件。可用rpm –ql 命令查看，rpm –qd可查看文档信息。

3.1 数据类型－－xmlChar

在libXml中用xmlCha 替代char,XML使用UTF-8编码的一字节字符串。如果你的数据使用其它编码，它必须被转换到UTF-8才能使用libxml的函数。

如同标准c中的char类型一样，xmlChar也有动态内存分配、字符串操作等相关函数。例如xmlMalloc是动态分配内存的函数；xmlFree是配套的释放内存函数；xmlStrcmp是字符串比较函数等等。基本上 xmlChar字符串相关函数都在xmlstring.h中定义；而动态内存分配函数在xmlmemory.h中定义。

另外要注意，因为总是要在xmlChar*和char*之间进行类型转换，所以定义了一个宏BAD_CAST，其定义如下：xmlstring.h

#define BAD_CAST (xmlChar *)

原则上来说，unsigned char和char之间进行强制类型转换是没有问题的。

3.2 重要数据结构

XmlDoc：代表DOM结构中的文档类型。包含由解析文档建立的树结构，xmlDocPtr是指向这个结构的指针。

xmlNode：代表DOM结构中的除文档类型类型外的其它节点类型。包含单一结点的结构，xmlNodePtr是指向这个结构的指针，它被用于遍历文档树。节点应该是xml中最重要的元素了，xmlNode代表了xml文档中的一个节点，实现为一个struct，内容很丰富：tree.h

typedef struct _xmlNode xmlNode;

typedef xmlNode *xmlNodePtr;

struct _xmlNode {

void *_private;/* application data */

xmlElementType type; /* type number, must be second ! */

const xmlChar *name; /* the name of the node, or the entity */

struct _xmlNode *children; /* parent->childs link */

struct _xmlNode *last; /* last child link */

struct _xmlNode *parent;/* child->parent link */

struct _xmlNode *next; /* next sibling link */

struct _xmlNode *prev; /* previous sibling link */

struct _xmlDoc *doc;/* the containing document */

/* End of common part */

xmlNs *ns; /* pointer to the associated namespace */

xmlChar *content; /* the content */

struct _xmlAttr *properties;/* properties list */

xmlNs *nsDef; /* namespace definitions on this node */

void *psvi;/* for type/PSVI informations */

unsigned short line; /* line number */

unsigned short extra; /* extra data for XPath/XSLT */

};

以看到，节点之间是以链表和树两种方式同时组织起来的，next和prev指针可以组成链表，而parent和children可以组织为树。所有节点都是文档XmlDoc节点的直接或间接子节点。同时还有以下重要元素：

l 节点中的文字内容： content ；

l 节点所属文档： doc ；

l 节点名字： name ；

l 节点的 namespace ： ns ；

l 节点属性列表： properties ；

Xml文档的操作其根本原理就是在节点之间移动、查询节点的各项信息，并进行增加、删除、修改的操作。xmlDocSetRootElement函数可以将一个节点设置为某个文档的根节点，这是将文档与节点连接起来的重要手段，当有了根结点以后，所有子节点就可以依次连接上根节点，从而组织成为一个xml树。

3.3 重要操作

3.3.1 创建 XML 文档

创建一个 xml 文档流程如下：

l 用 xmlNewDoc 函数创建一个文档指针 doc ；

l 用 xmlNewNode 函数创建一个节点指针 root_node ；

l 用 xmlDocSetRootElement 将 root_node 设置为 doc 的根结点；

l 给 root_node 添加一系列的子节点，并设置子节点的内容和属性；

l 用 xmlSaveFile 将 xml 文档存入文件；

l 用 xmlFreeDoc 函数关闭文档指针，并清除本文档中所有节点动态申请的内存

示例代码：

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

int main(int argc , char **argv)

{

xmlDocPtr pdoc = NULL;

xmlNodePtr proot_node = NULL ,pnode = NULL , pnode1 = NULL;

// 创造一个新文档并设置要 root 节点

// 在 XML 文档中有且只有一个 root 节点

pdoc = xmlNewDoc( BAD_CAST "1.0");

proot_node = xmlNewNode(NULL , BAD_CAST "plist");

xmlNewProp(proot_node , BAD_CAST "version" , BAD_CAST "1.0");

xmlDocSetRootElement(pdoc , proot_node);

pnode = xmlNewNode( NULL , BAD_CAST "dict" );

// 创造 root 节点的子节点

xmlNewChild(pnode , NULL , BAD_CAST "key" , BAD_CAST "info");

pnode1 = xmlNewNode( NULL , BAD_CAST "dict" );

// 保存文档

xmlSaveFormatFileEnc(argc > 1 ? argv[1] : "-", pdoc, "UTF-8", 1);

// 释放文档指针

xmlFreeDoc(pdoc);

xmlCleanupParser();

xmlMemoryDump(); //debug memory for regression tests

return(0);

}

涉及相关函数：

xmlNewDoc ， xmlNewNode ， xmlDocSetRootElement ， xmlSaveFile ， xmlFreeDoc 。

3.3.2 解释文档

解析一个 xml 文档，从中取出想要的信息，例如节点中包含的文字，或者某个节点的属性，其流程如下：

l 用 xmlReadFile 函数读出一个文档指针 doc ；

l 用 xmlDocGetRootElement 函数得到根节点 curNode ；

l curNode->xmlChildrenNode 就是根节点的子节点集合；

l 轮询子节点集合，找到所需的节点，用 xmlNodeGetContent 取出其内容；

l 用 xmlHasProp 查找含有某个属性的节点；

l 取出该节点的属性集合，用 xmlGetProp 取出其属性值；

l 用 xmlFreeDoc 函数关闭文档指针，并清除本文档中所有节点动态申请的内存。

注意：节点列表的指针依然是 xmlNodePtr ，属性列表的指针也是 xmlAttrPtr ，并没有 xmlNodeList 或者 xmlAttrList 这样的类型。看作列表的时候使用它们的 next 和 prev 链表指针来进行轮询。只有在 Xpath 中有 xmlNodeSet 这种类型，其使用方法前面已经介绍了 。

示例代码：

int main(int argc , char **argv)

{

xmlDocPtr pdoc = NULL;

xmlNodePtr proot=NULL , pcurnode = NULL;

char *psfilename;

if (argc < 1)

{

printf("error: Usage: %s filename/n" , argv[0]);

exit(1);

}

psfilename = argv[1];

pdoc = xmlReadFile(psfilename ,"UTF-8",XML_PARSE_RECOVER);

if(NULL == pdoc)

{

printf("error: open file %s" , psfilename);

exit(1);

}

pcurnode = xmlDocGetRootElement(pdoc);

if(NULL == pcurnode)

{

printf("error: empty document %s" , psfilename);

exit(1);

}

if(xmlStrcmp(pcurnode->name , BAD_CAST "plist") != 0)

{

printf("error document " );

exit(1);

}

if(xmlHasProp(pcurnode ,BAD_CAST "version"))

{

xmlChar *szAttr = xmlGetProp(pcurnode, BAD_CAST "version");

printf("get version : %s /n" , szAttr);

}

xmlFreeDoc(pdoc);

xmlCleanupParser();

return 0;

}

涉及函数：

xmlParseFile ， xmlReadFile ， xmlDocGetRootElement ， xmlHasProp ， xmlGetProp 。其中 xmlParseFile 和 xmlReadFile 都具备打开 XML 文件的功能， xmlParseFile 函数以默认方式读入一个 UTF-8 格式的文档，并返回文档指针。 xmlReadFile 函数读入一个带有某种编码的 xml 文档，并返回文档指针。