一、背景知识
使用JAXP(Java API for XML Parsing)来解析XML文档,支持基于对象和基于事件的两种解析方式。基于对象的解析,目前只支持W3C DOM解析,基于事件的解析,只有SAX解析模式被支持。
SAX是一种基于事件的解析模式,解析文档的时候,当遇到开始标签,结束标签或字符等,SAX都会产生相应的事件。一个SAX解释器解析XML文档的时候,把文档看作为一个流,依次产生相应的事件报告给已注册的content handler(实现org.xml.sax.ContentHandler接口);如果有错误,错误会报告给error handler(实现org.xml.sax.ErrorHandler接口)。如果你不注册一个error handler,那你根本不会知道在解析XML文档的时候有没有出错。SAX解析文档时,一个典型的事件被触发的顺序是:startDocument、startElement、characters、endElement、endDocument。startDocument和endDocument仅仅被触发一次。
DOM解析是基于对象的原理,当用DOM解析XML文档时,它会在内存中生成一个树形的结构来表示一个XML文档。树上的每个节点代表着XML文档的一个节点。大部分DOM解析器允许你抽取XML文档的一部分来生成DOM树,而不是把整个XML文档在内存中建立对应的DOM树。
DTD是XML文档的语法。如果一份XML文档声明了DOCTYPE,并且想在解析的时候根据DTD校验文档,那你必须在适当的factory里启用根据DTD校验文档(validation)这个特性。例如:
DocumentBuilderFactory dbfactory = DocumentBuilderFactory.newIns