微软的MSXML解析器

最新推荐文章于 2020-12-15 10:32:24 发布

hustzjasan

最新推荐文章于 2020-12-15 10:32:24 发布

阅读量3k

点赞数

分类专栏： Java 文章标签：微软文档 xml whitespace c++ null

本文链接：https://blog.csdn.net/hustzjasan/article/details/330062

版权

Java 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

微软的MSXML解析器读一个XML文档，然后把它的内容解析到一个抽象的信息容器中称为节点(NODES)。这些节点代表文档的结构和内容，并允许应用程序来读和操作文档中的信息而不需要显示知道的XML的语义。在一个文档被解析以后，它的节点能够在任何时候被浏览而不需要保持一定的顺序。对开发人员来说，最重要的编程对象是DOMDocument。DOMDocument对象通过暴露属性和方法来允许浏览、查询和修改XML文档的内容和结构，每一个接下来的对象暴露自己的属性和方法，这样就能够收集关于对象实例的信息，操作对象的值和结构，并导航到树的其他对象上去。MSXML.DLL所包括的主要的COM接口有：
　　(1)DOMDocument DOMDocument对象是XML DOM的基础，你可以利用它所暴露的属性和方法来允许你浏览、查询和修改XML文档的内容和结构。DOMDocument表示了树的顶层节点。它实现了DOM文档的所有的基本的方法并且提供了额外的成员函数来支持XSL和XSLT。它创建了一个文档对象，所有其他的对象都可以从这个文档对象中得到和创建。
　　(2)IXMLDOMNodeIXMLDOMNode是文档对象模型(DOM)中的基本的对象，元素，属性，注释，过程指令和其他的文档组件都可以认为是IXMLDOMNode，事实上，DOMDocument对象本身也是一个IXMLDOMNode对象。　　　　　　　　　　(3)IXMLDOMNodeList IXMLDOMNodeList实际上是一个节点(Node)对象的集合，节点的增加、删除和变化都可以在集合中立刻反映出来，可以通过"for...next"结构来遍历所有的节点。(4)IXMLDOMParseError IXMLDOMParseError接口用来返回在解析过程中所出现的详细的信息，包括错误号，行号，字符位置和文本描述。下面主要描述一个DOMDocument对象的创建过程，这里用VC描述创建一个文档对象的过程。
HRESULT hr;
IXMLDomDocument* pXMLDoc;
IXMLDOMNode* pXDN;
Hr=CoInitialize(NULL); file://COM的初始化
file://得到关于IXMLDOMDocument接口的指针pXMLDOC。
hr=CoCreateInstance(CLSID_DOM Document,NULL,CLSCTX_INPPROC_SERVER,
IID_IXMLDOMDocument,(void**) &pXMLDoc);
file://得到关于IXMLDOMNode接口的指针pXDN。
hr=pXMLDoc->QueryInterface (IID_IXMLDOMNode,(void**)&pXDN);
　　在MSXML解析器使用过程中，我们可以使用文档中的createElement方法来创建一个节点装载和保存XML文件。通过load或者是loadXML方法可以从一个指定的URL来装载一个XML文档。Load(LoadXML)方法带有两个参数：第一个参数xmlSource表示需要被解析的文档，第二个参数isSuccessful表示文档装载是否成功。Save方法是用来把文档保存到一个指定的位置。Save方法有一个参数destination用来表示需要保存的对象的类型，对象可以是一个文件，一个ASP Response方法，一个XML文档对象，或者是一个能够支持持久保存(persistence)的客户对象。下面是save方法使用的一个简单的例子(具体程序请参见http://www.swm.com.cn/swm/200101/利用MSXML解析XML文本)。同时，在解析过程中，我们需要得到和设置解析标志。利用不同的解析标志，我们可能以不同的方法来解析一个XML文档。XML标准允许解析器验证或者不验证文档，允许不验证文档的解析过程跳过对外部资源的提取。另外，你可能设置标志来表明你是否要从文档中移去多余的空格。为了达到这个目的，DOMDocument对象暴露了下面几个属性，允许用户在运行的时候改变解析器的行为：
　　(1)Async(相对于C++是两个方法，分别为get_async和put_async)
　　(2)ValidateOnparse(相对于C++是两个方法，分别为get_validate OnParse和put_validateOnParse)
　　(3)ResolveExternals(相对于C++是两个方法，分别为get_ Resolve Externals和put_ResolveExternals)
　　(4)PersercveWhiteSpace(相对于C++是两个方法，分别为get_ Perser cveWhiteSpace和put_ Persercve WhiteSpace)
　　每一个属性可以接受或者返回一个Boolean值。缺省的，anync,validateOnParse,resolveExternals的值为TRUE，perserveWhiteSpace的值跟XML文档的设置有关，如果XML文档中设置了xml:space属性的话，该值为FALSE。
　　同时在文档解析过程中可以收集一些和文档信息的信息，实际上在文档解析过程中可以得到以下的信息：
　　(1)doctype(文档类型)：实际上是和用来定义文档格式的DTD文件。如果XML文档没有相关的DTD文档的话，它就返回NULL。
　　(2)implementation(实现)：表示该文档的实现，实际上就是用来指出当前文档所支持的XML的版本。
　　(3)parseError(解析错误)：在解析过程中最后所发生的错误。
　　(4)readyState(状态信息)：表示XML文档的状态信息，readyState对于异步使用微软的XML解析器来说的重要作用是提高了性能，当异步装载XML文档的时候，你的程序可能需要检查解析的状态，MSXML提供了四个状态，分别为正在状态，已经状态，正在解析和解析完成。
　　(5)url(统一资源定位)：关于正在被装载和解析的XML文档的URL的情况。注意如果该文档是在内存中建立的话，这个属性返回NULL值。
　　在得到文档树结构以后，我们可以操作树中的每一个节点，可以通过两个方法得到树中的节点，分别为nodeFromID和getElementsByTagName。nodeFromID包括两个参数，第一个参数idString用来表示ID值，第二个参数node返回指向和该ID相匹配的NODE节点的接口指针。注意根据XML的技术规定，每一个XML文档中的ID值必须是唯一的，而且一个元素(element)仅且只能和一个ID相关联。getElementsByTagName方法有两个参数，第一个参数tagName表示需要查找的元素(Element)的名称，如果tagName为"*"的话返回文档中所有的元素(Element)。第二个参数为resultList,它实际是指向接口IXMLDOMNodeList的指针，用来返回和tagName(标签名字)相关的所有的Node的集合。
　　下面是一个简单的例子(具体程序请参见http://www.swm.com.cn/swm/200101/利用MSXML解析XML文本)。最后讨论一下如何来创建新的节点，实际上可以通过方法createNode来创建一个新的节点。CreateNode包括四个参数，第一个参数Type表示要创建的节点的类型，第二个参数name表示新节点的nodeName的值，第三个参数namespaceURI表示该节点相关的名字空间，第四个参数node表示新创建的节点。注意可以通过使用已经提供的类型(Type)，名称(name)和名字空间(nodeName)来创建一个节点。当一个节点被创建的时候，它实际上是在一个名字空间范围(如果已经提供了名字空间的话)内创建的。如果没有提供名字空间的话，它实际上是在文档的名字空间范围内创建的。