使用Libxml2操作XML文档

一、Libxml2介绍: Libxml2 是一个xml的c语言版的解析器,本来是为Gnome项目开发的工具,是一个基于MIT License的免费开源软件。它除了支持c语言版以外,还支持c++、PHP、Pascal、Ruby、Tcl等语言的绑定,能在Windows、Linux、Solaris、MacOsX等平台上运行。功能还是相当强大的,相信满足一般用户需求没有任何问题。 二、 Libxml2安装: 一般如果在安装系统的时候选中了所有开发库和开发工具的话(Fedora Core系列下),应该不用安装,下面介绍一下手动安装: 1) 从xmlsoft站点或ftp(ftp.xmlsoft.org)站点下载libxml压缩包(libxml2-xxxx.tar.gz) 2) 对压缩包进行解压缩 tar xvzf libxml2-xxxx.tar.gz 3) 进入解压缩后的文件夹中运行 ./configure make make install 安装完成后就可以使用简单的代码解析XML文件,包括本地和远程的文件,但是在编码上有一些问题。Libxml默认只支持UTF-8的编码,无论输入输出都是UTF-8,所以如果你解析完一个XML得到的结果都是UTF-8的,如果需要输出GB2312或者其它编码,需要ICONV来做转码(生成UTF-8编码的文件也可以用它做),如果系统中没有安装iconv的话,需要安装libiconv。 1) 下载libiconv压缩包(例如libiconv-1.11.tar.gz) 2) 对压缩包进行解压缩 tar xvzf libiconv-1.11.tar.gz 3) 进入解压缩后的文件夹中运行 ./configure make make install 三、关于XML: 在开始研究 Libxml2 库之前,先了解一下XML的相关基础。XML 是一种基于文本的格式,它可用来创建能够通过各种语言和平台访问的结构化数据。它包括一系列类似 HTML 的标记,并以树型结构来对这些标记进行排列。 例如,可参见清单 1 中介绍的简单文档。为了更清楚地显示 XML 的一般概念,下面是一个简化的XML文件。 清单 1. 一个简单的 XML 文件 root delete 10 清单 1 中的第一行是 XML 声明,它告诉负责处理 XML 的应用程序,即解析器,将要处理的 XML 的版本。大部分的文件使用版本 1.0 编写,但也有少量的版本 1.1 的文件。它还定义了所使用的编码。大部分文件使用 UTF-8,但是,XML 设计用来集成各种语言中的数据,包括那些不使用英语字母的语言。 接下来出现的是元素。一个元素以开始标记 开始(如 ),并以结束标记 结束(如 ),其中使用斜线 (/) 来区别于开始标记。元素是 Node 的一种类型。XML 文档对象模型 (DOM) 定义了几种不同的 Nodes 类型,包括: Elements(如 files 或者 age) Attributes(如 units) Text(如 root 或者 10) 元素可以具有子节点。例如,age 元素有一个子元素,即文本节点 10。 XML 解析器可以利用这种父子结构来遍历文档,甚至修改文档的结构或内容。LibXML2 是这样的解析器中的其中一种,并且文中的示例应用程序正是使用这种结构来实现该目的。对于各种不同的环境,有许多不同的解析器和库。LibXML2 是用于 UNIX 环境的解析器和库中最好的一种,并且经过扩展,它提供了对几种脚本语言的支持,如 Perl 和 Python。 四、使用Libxml2 项目中要实现一个管理XML文件的后台程序,需要对XML文件进行创建,解析,修改,查找等操作,下面介绍如何利用libxml2提供的库来实现上述功能。 1、创建XML文档: 我们使用xmlNewDoc()来创建XML文档,然后使用xmlNewNode(),xmlNewChild(),xmlNewProp(),xmlNewText()等函数向XML文件中添加节点及子节点,设置元素和属性,创建完毕后用xmlSaveFormatFileEnc()来保存XML文件到磁盘(该函数可以设置保存XML文件时的编码格式)。 示例1: #include #include #include int main(int argc, char **argv) { xmlDocPtr doc = NULL; /* document pointer */ xmlNodePtr root_node = NULL, node = NULL, node1 = NULL;/* node pointers */ // Creates a new document, a node and set it as a root node doc = xmlNewDoc(BAD_CAST "1.0"); root_node = xmlNewNode(NULL, BAD_CAST "root"); xmlDocSetRootElement(doc, root_node); //creates a new node, which is "attached" as child node of root_node node. xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST "content of node1"); // xmlNewProp() creates attributes, which is "attached" to an node. node=xmlNewChild(root_node, NULL, BAD_CAST "node3", BAD_CAST"node has attributes"); xmlNewProp(node, BAD_CAST "attribute", BAD_CAST "yes"); //Here goes another way to create nodes. node = xmlNewNode(NULL, BAD_CAST "node4"); node1 = xmlNewText(BAD_CAST"other way to create content"); xmlAddChild(node, node1); xmlAddChild(root_node, node); //Dumping document to stdio or file xmlSaveFormatFileEnc(argc > 1 ? argv[1] : "-", doc, "UTF-8", 1); /*free the document */ xmlFreeDoc(doc); xmlCleanupParser(); xmlMemoryDump();//debug memory for regression tests return(0); } 2、解析XML文档 解析文档时仅仅需要文件名并只调用一个函数,并有错误检查,常用的相关函数有xmlParseFile(),xmlParseDoc(),获取文档指针后,就可以使用xmlDocGetRootElement()来获取根元素节点指针,利用该指针就可以在DOM树里漫游了,结束后要调用xmlFreeDoc()释放。 示例2: xmlDocPtr doc; //定义解析文档指针 xmlNodePtr cur; //定义结点指针(你需要它为了在各个结点间移动) xmlChar *key; doc = xmlReadFile(url, MY_ENCODING, 256); //解析文件 /*检查解析文档是否成功,如果不成功,libxml将指一个注册的错误并停止。一个常见错误是不适当的编码。XML标准文档除了用UTF-8或UTF-16外还可用其它编码保存。如果文档是这样,libxml将自动地为你转换到UTF-8。更多关于XML编码信息包含在XML标准中。*/ if (doc == NULL ) { fprintf(stderr,"Document not parsed successfully. /n"); return; } cur = xmlDocGetRootElement(doc); //确定文档根元素 /*检查确认当前文档中包含内容*/ if (cur == NULL) { fprintf(stderr,"empty document/n"); xmlFreeDoc(doc); return; } /*在这个例子中,我们需要确认文档是正确的类型。“root”是在这个示例中使用文档的根类型。*/ if (xmlStrcmp(cur->name, (const xmlChar *) "root")) { fprintf(stderr,"document of the wrong type, root node != root"); xmlFreeDoc(doc); return; } cur = cur->xmlChildrenNode; while(cur!=NULL) { if ((!xmlStrcmp(cur->name, (const xmlChar *)"keyword"))) { key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1); printf("keyword: %s/n", key); xmlFree(key); } cur = cur->next; } xmlFreeDoc(doc); 3、修改XML元素及属性等信息 要修改XML文档里的元素及属性等信息,先需要解析XML文档,获得一个节点指针(xmlNodePtr node),利用该节点指针漫游DOM树,就可以在XML文档中获取,修改,添加相关信息。 示例3: 得到一个节点的内容: xmlChar *value = xmlNodeGetContent(node); 返回值value应该使用xmlFree(value)释放内存 得到一个节点的某属性值: xmlChar *value = xmlGetProp(node, (const xmlChar *)"prop1"); 返回值需要xmlFree(value)释放内存 设置一个节点的内容: xmlNodeSetContent(node, (const xmlChar *)"test"); 设置一个节点的某属性值: xmlSetProp(node, (const xmlChar *)"prop1", (const xmlChar *)"v1"); 添加一个节点元素: xmlNewTextChild(node, NULL, (const xmlChar *)"keyword", (const xmlChar *)"test Element"); 添加一个节点属性: xmlNewProp(node, (const xmlChar *)"prop1", (const xmlChar *)"test Prop"); 4、查找XML节点 有时候对一个XML文档我们可能只关心其中某一个或某几个特定的Element的值或其属性,如果漫游DOM树将是很痛苦也很无聊的事,利用XPath可以非常方便地得到你想的Element。下面是一个自定义函数: 示例4: xmlXPathObjectPtr get_nodeset(xmlDocPtr doc, const xmlChar *xpath) { xmlXPathContextPtr context; xmlXPathObjectPtr result; context = xmlXPathNewContext(doc); if (context == NULL) { printf("context is NULL/n"); return NULL; } result = xmlXPathEvalExpression(xpath, context); xmlXPathFreeContext(context); if (result == NULL) { printf("xmlXPathEvalExpression return NULL/n"); return NULL; } if (xmlXPathNodeSetIsEmpty(result->nodesetval)) { xmlXPathFreeObject(result); printf("nodeset is empty/n"); return NULL; } return result; } 在doc指向的XML文档中查询满足xpath表达式条件的节点,返回满足这一条件的节点集合查询条件xpath的写法参见xpath相关资料。在查询完毕获取结果集后,就可以通过返回的 xmlXPathObjectPtr 结构访问该节点: 示例5: xmlChar *xpath = ("/root/node/[@key='keyword']"); xmlXPathObjectPtr app_result = get_nodeset(doc,xpath); if (app_result == NULL) { printf("app_result is NULL/n"); return; } int i = 0; xmlChar *value; if(app_result) { xmlNodeSetPtr nodeset = app_result->nodesetval; for (i=0; i < nodeset->nodeNr; i++) { cur = nodeset->nodeTab[i]; cur = cur->xmlChildrenNode; while(cur!=NULL) { value = xmlGetProp(cur,(const xmlChar *)"key"); if (value != NULL) { printf("value: %s/n/n", d_ConvertCharset("utf-8", "GBK", (char *)value)); xmlFree(value); } value = xmlNodeGetContent(cur); if (value != NULL) { printf("value: %s/n/n", d_ConvertCharset("utf-8", "GBK", (char *)value)); xmlFree(value); } } } xmlXPathFreeObject (app_result); } 通过get_nodeset()返回的结果集,我们可以获取该节点的元素及属性,也可以修改该节点的值。示例中在获取值打印的时候用到 d_ConvertCharset()函数来改变编码格式为GBK,以方便正确读取可能的中文字符。 5、编码问题 由于Libxml一般以UTF-8格式保存和操纵数据,如果你的程序使用其它的数据格式,比如中文字符(GB2312,GBK编码),就必须使用Libxml函数转换到UTF-8。如果你想你的程序以除UTF-8外的其它编码方式输出也必须做转换。 下面的示例程序提供几个函数来实现对数据编码格式的转换,其中有的要用到Libiconv,因此为了确保他们能正常工作,先检查以下系统中是否已经安装libiconv库。 示例6: xmlChar *ConvertInput(const char *in, const char *encoding) { unsigned char *out; int ret; int size; int out_size; int temp; xmlCharEncodingHandlerPtr handler; if (in == 0) return 0; handler = xmlFindCharEncodingHandler(encoding); if (!handler) { printf("ConvertInput: no encoding handler found for '%s'/n", encoding ? encoding : ""); return 0; } size = (int) strlen(in) + 1; out_size = size * 2 - 1; out = (unsigned char *) xmlMalloc((size_t) out_size); if (out != 0) { temp = size - 1; ret = handler->input(out, &out_size, (const unsigned char *) in, &temp); if ((ret < 0) || (temp - size + 1)) { if (ret < 0) { printf("ConvertInput: conversion wasn't successful./n"); } else { printf("ConvertInput:conversion wasn't successful. converted: %i octets./n", temp); } xmlFree(out); out = 0; } else { out = (unsigned char *) xmlRealloc(out, out_size + 1); out[out_size] = 0; /*null terminating out */ } } else { printf("ConvertInput: no mem/n"); } return out; } 示例7: char * Convert( char *encFrom, char *encTo, const char * in) { static char bufin[1024], bufout[1024], *sin, *sout; int mode, lenin, lenout, ret, nline; iconv_t c_pt; if ((c_pt = iconv_open(encTo, encFrom)) == (iconv_t)-1) { printf("iconv_open false: %s ==> %s/n", encFrom, encTo); return NULL; } iconv(c_pt, NULL, NULL, NULL, NULL); lenin = strlen(in) + 1; lenout = 1024; sin = (char *)in; sout = bufout; ret = iconv(c_pt, &sin, (size_t *)&lenin, &sout, (size_t *)&lenout); if (ret == -1) { return NULL; } iconv_close(c_pt); return bufout; } 示例8: char *d_ConvertCharset(char *cpEncodeFrom, char *cpEncodeTo, const char *cpInput) { static char s_strBufOut[1024], *sin, *cpOut; size_t iInputLen, iOutLen, iReturn; iconv_t c_pt; if ((c_pt = iconv_open(cpEncodeTo, cpEncodeFrom)) == (iconv_t)-1) { printf("iconv_open failed!/n"); return NULL; } iconv(c_pt, NULL, NULL, NULL, NULL); iInputLen = strlen(cpInput) + 1; iOutLen = 1024; sin = (char *)cpInput; cpOut = s_strBufOut; iReturn = iconv(c_pt, &sin, &iInputLen, &cpOut, &iOutLen); if (iReturn == -1) { return NULL; } iconv_close(c_pt); return s_strBufOut; } 通过上述函数,可以方便的在XML文件中保存并操纵中文字符。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值