简介
libxml2是一个用于XML解析的开发工具包,提供C语言接口。这里简单记录使用libxml2进行XML数据生成、解析及使用XPath语法进行节点选取的基本操作。
XML(可扩展标记语言)的定义及其结构和结构名称可以参考维基百科。这里简单关注几个与后文xmlNode结构有关的概念:
- 标记(tag)。XML既然是一种标记语言,肯定会有标记的概念,这里可以不严谨的理解为符号开始与符号结束的一段文本,比如
-
<section>是开始标记
-
</section>是结束标记
-
<section/>是空元素标记
-
- 内容(content)。XML中标记之外的部分就是内容。在libxml2中内容与元素一样都对应一个xmlNode,只是其type为XML_TEXT_NODE,其content成员保存了内容字符串,而且其作为外层元素xmlNode的子节点存在。
- 元素(element)。元素是一个逻辑概念,一种是开始标记与对应的结束标记及其中间的所有内容和其他子元素,另一种是一个空元素标记作为一个元素存在。在libxml2中一个元素对应一个xmlNode,其type为XML_ELEMENT_NODE
- 属性(attribute)。属性是元素的内部结构,以键值对存在。在libxml2中对应一个xmlAttr结构。xmlNode中的属性由其成员properties链接管理。
例如:
<Head id="1">MaNongXF</Head>
标签是、,这是两个标签,一个开头一个结束。
属性就相当于是id,属性值是“1”,属性值必须被引号包围,单引号和双引号均可使用。
内容就是”MaNongXF“
代码示例
创建xml
创建一个xml文档流程如下:
- 用xmlNewDoc函数创建一个文档指针doc;
- 用xmlNewNode函数创建一个节点指针root_node;
- 用xmlDocSetRootElement将root_node设置为doc的根结点;
- 给root_node添加一系列的子节点,并设置子节点的内容和属性;
- 用xmlSaveFile将xml文档存入文件;
- 用xmlFreeDoc函数关闭文档指针,并清除本文档中所有节点动态申请的内存。
#include <stdio.h>
#include <stdlib.h>
#include <libxml/parser.h>
#include <libxml/tree.h>
#include <iostream>
using namespace std;
int main()
{
//定义文档和节点指针
xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");
xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");
//设置根节点
xmlDocSetRootElement(doc,root_node);
//在根节点中直接创建节点
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");
//创建一个节点,设置其内容和属性,然后加入根结点
xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");
xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");
xmlAddChild(root_node,node);
xmlAddChild(node,content);
xmlNewProp(node,BAD_CAST"attribute",BAD_CAST "yes");
//创建一个儿子和孙子节点
node = xmlNewNode(NULL, BAD_CAST "son");
xmlAddChild(root_node,node);
xmlNodePtr grandson = xmlNewNode(NULL, BAD_CAST "grandson");
xmlAddChild(node,grandson);
xmlAddChild(grandson, xmlNewText(BAD_CAST "This is a grandson node"));
//存储xml文档
int nRel = xmlSaveFile("CreatedXml.xml",doc);
if (nRel != -1)
{
cout<<"一个xml文档被创建,写入"<<nRel<<"个字节"<<endl;
}
//释放文档内节点动态申请的内存
xmlFreeDoc(doc);
return 1;
}
编译执行
gcc -o CreateXmlFile CreateXmlFile.c -I/usr/local/include/libxml2 -L/usr/local/lib -lxml2 -lm -lz
./ParseXmlFile
生成结果
<?xml version="1.0"?>
<root>
<newNode1>newNode1 content</newNode1>
<newNode2>newNode2 content</newNode2>
<newNode3>newNode3 content</newNode3>
<node2 attribute="yes">NODE CONTENT</node2>
<son>
<grandson>This is a grandson node</grandson>
</son>
</root>
解析xml
解析一个xml文档,从中取出想要的信息,例如节点中包含的文字,或者某个节点的属性,其流程如下:
- 用xmlReadFile函数读出一个文档指针doc;
- 用xmlDocGetRootElement函数得到根节点curNode;
- curNode->xmlChildrenNode就是根节点的子节点集合;
- 轮询子节点集合,找到所需的节点,用xmlNodeGetContent取出其内容;
- 用xmlHasProp查找含有某个属性的节点;
- 取出该节点的属性集合,用xmlGetProp取出其属性值;
- 用xmlFreeDoc函数关闭文档指针,并清除本文档中所有节点动态申请的内存。
#include <libxml/parser.h>
#include <iostream.h>
int main(int argc, char* argv[])
{
xmlDocPtr doc; //定义解析文档指针
xmlNodePtr curNode; //定义结点指针(你需要它为了在各个结点间移动)
xmlChar *szKey; //临时字符串变量
char *szDocName;
if (argc <= 1)
{
printf("Usage: %s docname"n", argv[0]);
return(0);
}
szDocName = argv[1];
//下面两句是格式化xml的语句
xmlKeepBlanksDefault(0) ;
xmlIndentTreeOutput = 1 ;
doc = xmlReadFile(szDocName,"GB2312",XML_PARSE_RECOVER); //解析文件
//检查解析文档是否成功,如果不成功,libxml将指一个注册的错误并停止。
//一个常见错误是不适当的编码。XML标准文档除了用UTF-8或UTF-16外还可用其它编码保存。
//如果文档是这样,libxml将自动地为你转换到UTF-8。更多关于XML编码信息包含在XML标准中.
if (NULL == doc)
{
fprintf(stderr,"Document not parsed successfully. "n");
return -1;
}
curNode = xmlDocGetRootElement(doc); //确定文档根元素
/*检查确认当前文档中包含内容*/
if (NULL == curNode)
{
fprintf(stderr,"empty document"n");
xmlFreeDoc(doc);
return -1;
}
/*在这个例子中,我们需要确认文档是正确的类型。“root”是在这个示例中使用文档的根类型。*/
if (xmlStrcmp(curNode->name, BAD_CAST "root"))
{
fprintf(stderr,"document of the wrong type, root node != root");
xmlFreeDoc(doc);
return -1;
}
curNode = curNode->xmlChildrenNode;
xmlNodePtr propNodePtr = curNode;
while(curNode != NULL)
{
//取出节点中的内容
if ((!xmlStrcmp(curNode->name, (const xmlChar *)"newNode1")))
{
szKey = xmlNodeGetContent(curNode);
printf("newNode1: %s"n", szKey);
xmlFree(szKey);
}
//查找带有属性attribute的节点
if (xmlHasProp(curNode,BAD_CAST "attribute"))
{
propNodePtr = curNode;
}
curNode = curNode->next;
}
//查找属性
xmlAttrPtr attrPtr = propNodePtr->properties;
while (attrPtr != NULL)
{
if (!xmlStrcmp(attrPtr->name, BAD_CAST "attribute"))
{
xmlChar* szAttr = xmlGetProp(propNodePtr,BAD_CAST "attribute");
cout<<"get attribute = "<<szAttr<<endl;
xmlFree(szAttr);
}
attrPtr = attrPtr->next;
}
xmlFreeDoc(doc);
return 0;
}
编译执行
gcc -o ParseXmlFile ParseXmlFile.cpp -I/usr/local/include/libxml2 -L/usr/local/lib -lxml2 -lm -lz
./ParseXmlFile CreatedXml.xml
参考文献
【1】https://www.cnblogs.com/catgatp/p/6505435.html
【2】https://gist.github.com/fuluwwa/87f8e9ac93e3b008c9e572cb6bc8ae49
【3】https://blog.csdn.net/qq_48089436/article/details/114750013
【4】https://blog.51cto.com/jeff1573/1665859