XML文件解析器TXml

前几天看了开源的XML文件解析器TinyXml,它是怎么实现解析的没怎么看懂,于是决定自己实现一个,反正最近不忙。先命名为TXml。现在完成了解析和查询功能,全部代码加起来不到1000行,将会继续完善它。源码必共享

先简单说一下我的思路:

1:读取XML文件信息,并存入一个字符数组中;

2:遍历数组,将数组解析成一棵树;

3:以路径的方式查询和按属性查询;

这个解析器最麻烦的地方就在怎么将字符数组解析成一颗树。我们先看一下一个简单XML文件,他包括文件头、节点、节点名称及节点值、属性名称及属性值,子节点、父节点、注释等。

 

<?xml version="1.0" encoding="utf-8" ?>
<!--注释-->
<Items>
  <item name="chentaihan">89757</item>
</Items>


简单介绍一下解析的实现,不太好说清楚,看代码可能更容易理解一些。递归实现,每次都从一个节点开始解析,就是从字符“<”开始,到字符“>”结束,字符<后面就是节点的名称,之后的就是节点属性,字符>后一个字符如果不是<,那就是节点的值,如果是字符<,可能是子节点也可能是这个节点结束了。遇到字符<开始递归,空格和注释直接被PASS。大致代码如下:

const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
{ 
	if(p==NULL || !*p) 
		return NULL; 
	if(*p=='<')//开始一个节点
	{
		bool isNote;
		p=SkipNote(p,isNote);//跳过注释
		if(isNote) {//是注释
			ParseContent(p,baseNode); 
			return NULL;
		} 
		if(*p=='/')//结束节点
		{
			while(p!=NULL && *p && *p!='>')
			{
				p++;
			} 
			++p=SkipWhiteSpace(p);
			ParseContent(p,baseNode->parent);//新节点
		}else{ //节点属性  
			string name;
			while(p!=NULL && *p && *p!='>' && *p!=' ' && *p!='/')
			{
				 name.push_back(*p++); 
			}
			XmlNode* node=new XmlNode(name,baseNode);
			baseNode->AppendNode(node);

			if(*p=='>')
			{
				++p=SkipWhiteSpace(p); 
				ParseContent(p,node);//新节点
			}else{
				p=GetAttr(p,node);
				if(*p=='/')
				{
					while(p!=NULL && *p && *p!='<')
						p++;
					ParseContent(p,baseNode);//新节点
				}else{
					++p=SkipWhiteSpace(p);  
					ParseContent(p,node);//新节点
				}
			}  
		}
	}else{//节点的值 
		GetNodeValue(p,baseNode);
	} 
}


 

按路径的方式查询。利用两个数组实现,假设这两个数组分别为A,B;第一次查询将结果存入数组A,将A作为数据源,将查询结果存入B,清除A中的数据,将B作为数据源,将查询结果存入A,反复进行,最后A,B中有一个就是查询结果。当然也可以用递归实现,我们都知道递归太深容易爆线程栈,且性能低。

按属性查询。同样没有用递归实现,有个经常出现的面试题:按层序打印一个棵树。那么这里也是按层序查找,就是利用一个队列,按根节点、根节点的直接子节点进栈,一个个匹配,不匹配就出队列。

//根据属性查询--利用队列按层序查询
XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
{  
	if(node==NULL)
		return NULL; 
	if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
	{ 
		return node;
	} 
	queue<XmlNode*> list; 
	for(int i=node->ChildCount()-1;i>=0;i--)
	{
		list.push((*node->childNodes)[i]); 
	}

	while(list.size()>0)
	{
		XmlNode* tmpNode=list.front();
		if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
		{ 
			return tmpNode;
		}
		for(int i=tmpNode->ChildCount()-1;i>=0;i--)
		{
			list.push((*tmpNode->childNodes)[i]); 
		}
		list.pop();
	} 
	return NULL;
}


 

看了按属性查找,我们就很容易知道,C#中ConfigurationManager读取配置文件的大致实现,因为配置文件很简单,就是一个节点下面有多个节点,完全可以这样实现,根节点基本可以无视,直接就是一个字典,KEY存key的值,VALUE存value的值,查找的时间复杂度就是O(1)。

简单测试:

#include "XmlDocument.h"
 
int main()
{
	{    
		XmlDocument doc;
		doc.Load("test.txt");   
		cout<<"XML头部:"<<doc.Head().c_str()<<endl;
		cout<<"显示全部学生成绩:" ;
		doc.ShowXML(doc);  
		cout<<endl;
		vector<XmlNode*> vect;
		doc.SelectNodes("students/student/courses/course",vect);
		 
		XmlNode* node=doc.SelectSingleNode("students/Student/courses/course/Course"); 

		if(node!=NULL)
		{
			node->ShowXML(*node); 
			cout<<"name:"<<node->Name().c_str()<<endl;
			cout<<"属性:";
			node->ShowAttr() ; 
			cout<<endl;
			cout<<"value:"<<node->Value().c_str()<<endl;
			cout<<"ChildCount:"<<node->ChildCount()<<endl<<endl;
			
		 	XmlNode::Iterator iter=node->begin();
			while(iter!=node->end())
			{ 
				cout<<"name:"<<(*((iter)._Ptr))->Name().c_str() <<endl;
				cout<<"value:"<<(*((iter)._Ptr))->Value().c_str() <<endl; 
				iter++;
			}  
		}   
		cout<<"查找name=‘英文’的节点:"<<endl;
		XmlNode* node2=doc.SelectSingleNodeByAttr("name","英文");
		if(node2!=NULL){
			node2->ShowXML(*node2); 
		}
	}
	
	system("pause");
	return 0;
}


 

未完...待续...功能将会更加丰富,我们都值得期待!

我的博客目录

 

我们为什么要在LabVIEW中使用XML文件?①它是许多服务器数据传输的基本格式,在网络编程中有很大的几率要使用它。②它比ini文件功能强大,它可以编写复杂逻辑关系的数据配置文件,类似一个微型的数据库文件。。。。。。 感谢微软提供了OLE技术,使得不同程序之间可以通过预先指定的接口互相调用。微软提供了MSXML2.0, 4.0 及 6.0动态链接库来支援开发人员读写XML文件。 而LabVIEW正可以通过OLE自动化接口,调用MSXML*.dll动态链接库,完成对XML文件的操作。如果你的系统没有安装MSXML*.dll,可以去网上下载并安装就可以了。论坛中有许多朋友已经使用该方式去读写EXCEL, WORD,ACCESS。 有了OLE接口是不是就能很方便的读写XML文件了呢?不是,因为其中的操作是通过引用(Reference)来完成的,使用引用并不是免费的午餐,你必须时刻提防内存泄露,如果你忘记释放它,那么你就会在任务管理器中看到:你的程序内存消耗在不断的增长。 更要命的是XML文件是以树的方式构成的,从上往下分大致有:Document, root node, node List, node,而node中又包含parent node, child node,你的程序怎么才能组织好对它的调用?想想头都大了,是不是? 还好我们还有面向对象编程,把以上的东西都归下类,发现XML文件就是由Document, node list 和 node组成的,其他的都是根据这三个类派生出来的。那么就定义三个类,分别是CDoc, CNodeList 和 CNode由他们负责来完成对XML文件的操作。更方便的是,对于引用(Reference)的管理也都在这三个类当中完成,这有效地减轻了程序的复杂度。 附件中的程序是用LabVIEW8.5开发的,其中包含了一份Sample.xml文件,供大家测试。 本程序是调用MSXML4.0接口来完成的,如果你系统里没有安装,那么将不能运行该程序。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值