在做工程的过程中,我们会看到很多的XML 需要我们去解析,这时候工具的选择就很重要了,因为这关系到速度的问题,和使用的上手习惯。
下面总结两种解析库。一个是C实现,一个是C++实现的。
一是TinyXML
确实简单,一个优秀的C++ XML解析器 参考:
http://www.cnblogs.com/phinecos/archive/2008/03/11/1100912.html
读取和设置
xml
配置文件是最常用的操作,试用了几个C++的
XML
解析器,个人感觉TinyXML是使用起来最舒服的,因为它的API接口和Java的十分类似,面向对象性很好。
TinyXML
是一个开源的解析
XML
的解析库,能够用于C++,能够在Windows或Linux中编译。这个解析库的模型通过解析
XML
文件,然后在内存中生成DOM模型,从而让我们很方便的遍历这棵
XML
树。
DOM模型即文档对象模型,是将整个文档分成多个元素(如书、章、节、段等),并利用树型结构表示这些元素之间的顺序关系以及嵌套包含关系。
说一下中文乱码的问题
乱码是由于GB2312与UTF8之间转换不当造成的,tinyxml在处理UTF8本身没有问题,当你打开一个UTF8的文档,可以在加载的时候指定 UTF8的方式,或者文档声明处指明的编码格式,tinyxml会按照相应的编码格式加载,但很多时候当我们输出或写入中文字段时会出现乱码,无论在内存,还是打印出来的内容.这是因为我们的软件通常是GB2312编码,而读取或写入的内容是UTF8,自然就会出错.可以借助网上的两个函数来实现转换 (原作者不详):
乱码是由于GB2312与UTF8之间转换不当造成的,tinyxml在处理UTF8本身没有问题,当你打开一个UTF8的文档,可以在加载的时候指定 UTF8的方式,或者文档声明处指明的编码格式,tinyxml会按照相应的编码格式加载,但很多时候当我们输出或写入中文字段时会出现乱码,无论在内存,还是打印出来的内容.这是因为我们的软件通常是GB2312编码,而读取或写入的内容是UTF8,自然就会出错.可以借助网上的两个函数来实现转换 (原作者不详):
void ConvertUtf8ToGBK(CString& strUtf8)
{
int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
unsigned short * wszGBK = new unsigned short[len+1];
memset(wszGBK, 0, len * 2 + 2);
MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, wszGBK, len);
len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
char *szGBK=new char[len + 1];
memset(szGBK, 0, len + 1);
WideCharToMultiByte (CP_ACP, 0, wszGBK, -1, szGBK, len, NULL,NULL);
strUtf8 = szGBK;
delete[] szGBK;
delete[] wszGBK;
}
void ConvertGBKToUtf8(CString& strGBK)
{
int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
unsigned short * wszUtf8 = new unsigned short[len+1];
memset(wszUtf8, 0, len * 2 + 2);
MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);
len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL);
char *szUtf8=new char[len + 1];
memset(szUtf8, 0, len + 1);
WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);
strGBK = szUtf8;
delete[] szUtf8;
delete[] wszUtf8;
}
{
int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
unsigned short * wszGBK = new unsigned short[len+1];
memset(wszGBK, 0, len * 2 + 2);
MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, wszGBK, len);
len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
char *szGBK=new char[len + 1];
memset(szGBK, 0, len + 1);
WideCharToMultiByte (CP_ACP, 0, wszGBK, -1, szGBK, len, NULL,NULL);
strUtf8 = szGBK;
delete[] szGBK;
delete[] wszGBK;
}
void ConvertGBKToUtf8(CString& strGBK)
{
int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
unsigned short * wszUtf8 = new unsigned short[len+1];
memset(wszUtf8, 0, len * 2 + 2);
MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);
len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL);
char *szUtf8=new char[len + 1];
memset(szUtf8, 0, len + 1);
WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);
strGBK = szUtf8;
delete[] szUtf8;
delete[] wszUtf8;
}
当然,你也可以用MultiByteToWideChar,WideCharToMultiByte函数自己实现转换.以上是简单应用的几个举例,理解他们,相信你已经能写出满足自己需要的代码了.
二是Expat解析库,
或者其他牛人的:C++中使用Expat解析XML
使用Expat XML解析器的例子
expat是使用C 编写的XML解释器,采用流的方式来解析XML文件,并且基于事件通知型来调用分析到的数据,并不需要把所有XML文件全部加载到内存里,这样可以分析非常大的XML文件。由于expat库是由XML的主要负责人James Clark来实现的,因此它是符合W3C的XML标准的。
使用expat库是非常简单的,只需要了解 四个函数,就可以达到80%的功能了,看来设计这个库还是比较好的。那么需要了解那四个函数呢?这四个函数如下:
使用expat库是非常简单的,只需要了解 四个函数,就可以达到80%的功能了,看来设计这个库还是比较好的。那么需要了解那四个函数呢?这四个函数如下:
工作原理:
1 . Initialize the XML parser with the xml_parser_create() function
通过 xml_parser_create()函数安装XML解析器;
2. Create functions to use with the different event handlers
使用不同的事件处理其建立函数;
3. Addthexml_set_element_handler() function to specify which functionwillbeexecuted when the parser encounters the opening and closingtags
通过添加 xml_set_element_handler()函数来指定需要执行的函数(当解析器遇到开始或结束标签时)
4.Add the xml_set_character_data_handler() function to specify whichfunction will execute when the parser encounters character data
通过添加xml_set_element_handler()函数来指定需要执行的函数(当解析器遇到字符时)
5. Parse the file "test.xml" with the xml_parse() function
通过 xml_parse()函数来解析“test.xml”文件
6. In case of an error, add xml_error_string() function to convert an XML error to a textual description
当出现错误情况时,通过添加xml_error_string()函数将一个XML的错误转换成一个文本描述
7 Call the xml_parser_free() function to release the memory allocated with the xml_parser_create() function
通过请求xml_parser_free()函数来释放xml_parser_create()函数分配的内存
1 . Initialize the XML parser with the xml_parser_create() function
通过 xml_parser_create()函数安装XML解析器;
2. Create functions to use with the different event handlers
使用不同的事件处理其建立函数;
3. Addthexml_set_element_handler() function to specify which functionwillbeexecuted when the parser encounters the opening and closingtags
通过添加 xml_set_element_handler()函数来指定需要执行的函数(当解析器遇到开始或结束标签时)
4.Add the xml_set_character_data_handler() function to specify whichfunction will execute when the parser encounters character data
通过添加xml_set_element_handler()函数来指定需要执行的函数(当解析器遇到字符时)
5. Parse the file "test.xml" with the xml_parse() function
通过 xml_parse()函数来解析“test.xml”文件
6. In case of an error, add xml_error_string() function to convert an XML error to a textual description
当出现错误情况时,通过添加xml_error_string()函数将一个XML的错误转换成一个文本描述
7 Call the xml_parser_free() function to release the memory allocated with the xml_parser_create() function
通过请求xml_parser_free()函数来释放xml_parser_create()函数分配的内存
地址:
http://blog.csdn.net/caimouse/archive/2008/05/18/2455644.aspx
要了解第二人生里使用expat XML解析器之前,先来仔细地分析一下怎么样使用expat库的小例子,看看具体调用了那些接口函数,是否会很复杂的呢?‘它的例子程序如下:
#001 /*****************************************************************
#002 * outline.c
#003 *
#004 * Copyright 1999, Clark Cooper
#005 * All rights reserved.
#006 *
#007 * This program is free software; you can redistribute it and/or
#008 * modify it under the same terms as Perl.
#009 *
#010 * Read an XML document from standard input and print an element
#011 * outline on standard output.
#012 */
#013
#014
下面包括输出文件和库文件头。
#015 #include <stdio.h>
#016 #include "xmlparse.h"
#017
定义缓冲区的大小。
#018 #define BUFFSIZE 8192
#019
创建一个缓冲区。
#020 char Buff[BUFFSIZE];
#021
#022 int Depth;
#023
下面定义一个XML元素开始处理的函数。
#024 void
#025 start(void *data, const char *el, const char **attr) {
#026 int i;
#027
#028 for (i = 0; i < Depth; i++)
#029 printf(" ");
#030
#031 printf("%s", el);
#032
#033 for (i = 0; attr[i]; i += 2) {
#034 printf(" %s='%s'", attr[i], attr[i + 1]);
#035 }
#036
#037 printf("\n");
#038 Depth++;
#039 } /* End of start handler */
#040
下面定义一个XML元素结束调用的函数。
#041 void
#042 end(void *data, const char *el) {
#043 Depth--;
#044 } /* End of end handler */
#045
程序入口点。
#046 void
#047 main(int argc, char **argv) {
创建一个XML分析器。
#048 XML_Parser p = XML_ParserCreate(NULL);
下面判断是否创建XML分析器失败。
#049 if (! p) {
#050 fprintf(stderr, "Couldn't allocate memory for parser\n");
#051 exit(-1);
#052 }
#053
下面设置每个XML元素出现和结束的处理函数。这里设置start为元素开始处理函数,end元素结束处理函数。
#054 XML_SetElementHandler(p, start, end);
#055
循环分析所有XML文件。
#056 for (;;) {
#057 int done;
#058 int len;
#059
调用函数fread从文件里读取数据到缓冲区Buff里。
#060 len = fread(Buff, 1, BUFFSIZE, stdin);
读取文件出错就退出。
#061 if (ferror(stdin)) {
#062 fprintf(stderr, "Read error\n");
#063 exit(-1);
#064 }
判断是否读取文件到结束。
#065 done = feof(stdin);
#066
调用库函数XML_Parse来分析缓冲区Buff里的XML数据。
#067 if (! XML_Parse(p, Buff, len, done)) {
#068 fprintf(stderr, "Parse error at line %d:\n%s\n",
#069 XML_GetCurrentLineNumber(p),
#070 XML_ErrorString(XML_GetErrorCode(p)));
#071 exit(-1);
#072 }
#073
如果分析文件到结尾位置,或者出错,就可以退出循环处理。
#074 if (done)
#075 break;
#076 }
#077 } /* End of main */
#078
#079
#080
通过上面调用库函数XML_ParserCreate、XML_SetElementHandler、XML_Parse等三个函数就完成了XML的分析过程,这样使用起来真是太简单了,看到expat库的威力无穷。
要了解第二人生里使用expat XML解析器之前,先来仔细地分析一下怎么样使用expat库的小例子,看看具体调用了那些接口函数,是否会很复杂的呢?‘它的例子程序如下:
#001 /*****************************************************************
#002 * outline.c
#003 *
#004 * Copyright 1999, Clark Cooper
#005 * All rights reserved.
#006 *
#007 * This program is free software; you can redistribute it and/or
#008 * modify it under the same terms as Perl.
#009 *
#010 * Read an XML document from standard input and print an element
#011 * outline on standard output.
#012 */
#013
#014
下面包括输出文件和库文件头。
#015 #include <stdio.h>
#016 #include "xmlparse.h"
#017
定义缓冲区的大小。
#018 #define BUFFSIZE 8192
#019
创建一个缓冲区。
#020 char Buff[BUFFSIZE];
#021
#022 int Depth;
#023
下面定义一个XML元素开始处理的函数。
#024 void
#025 start(void *data, const char *el, const char **attr) {
#026 int i;
#027
#028 for (i = 0; i < Depth; i++)
#029 printf(" ");
#030
#031 printf("%s", el);
#032
#033 for (i = 0; attr[i]; i += 2) {
#034 printf(" %s='%s'", attr[i], attr[i + 1]);
#035 }
#036
#037 printf("\n");
#038 Depth++;
#039 } /* End of start handler */
#040
下面定义一个XML元素结束调用的函数。
#041 void
#042 end(void *data, const char *el) {
#043 Depth--;
#044 } /* End of end handler */
#045
程序入口点。
#046 void
#047 main(int argc, char **argv) {
创建一个XML分析器。
#048 XML_Parser p = XML_ParserCreate(NULL);
下面判断是否创建XML分析器失败。
#049 if (! p) {
#050 fprintf(stderr, "Couldn't allocate memory for parser\n");
#051 exit(-1);
#052 }
#053
下面设置每个XML元素出现和结束的处理函数。这里设置start为元素开始处理函数,end元素结束处理函数。
#054 XML_SetElementHandler(p, start, end);
#055
循环分析所有XML文件。
#056 for (;;) {
#057 int done;
#058 int len;
#059
调用函数fread从文件里读取数据到缓冲区Buff里。
#060 len = fread(Buff, 1, BUFFSIZE, stdin);
读取文件出错就退出。
#061 if (ferror(stdin)) {
#062 fprintf(stderr, "Read error\n");
#063 exit(-1);
#064 }
判断是否读取文件到结束。
#065 done = feof(stdin);
#066
调用库函数XML_Parse来分析缓冲区Buff里的XML数据。
#067 if (! XML_Parse(p, Buff, len, done)) {
#068 fprintf(stderr, "Parse error at line %d:\n%s\n",
#069 XML_GetCurrentLineNumber(p),
#070 XML_ErrorString(XML_GetErrorCode(p)));
#071 exit(-1);
#072 }
#073
如果分析文件到结尾位置,或者出错,就可以退出循环处理。
#074 if (done)
#075 break;
#076 }
#077 } /* End of main */
#078
#079
#080
通过上面调用库函数XML_ParserCreate、XML_SetElementHandler、XML_Parse等三个函数就完成了XML的分析过程,这样使用起来真是太简单了,看到expat库的威力无穷。