SAX是事件驱动的,SAX解析的方式非常类似流媒体的分析处理方式,这种解析模式能够随着文档的读入过程立即开始解析,而不需要等待文档中所有的数据被读入结束后再开始解析。适合于内存较小的应用场合。除此之外,应用程序甚至不必解析整个文档,它可以在某个条件得到满足时停止解析后面的文档。
SAX解析XML文档的基本原理为:首先获得一个实现SAX接口的解析器,然后编写一个符合SAX标准的处理器类,并且把这个类注册到刚生成的解析器,然后开始解析XML文件,解析器会把XML文档作为一个流读出来,并将文件流转换成一个事件流,最后根据事件调用定义在解析器里的事件处理方法对流中的事件做出响应。
SAXParserFactory:一个根据系统属性生成parser实例的解析器工厂类。其功能与DOM中的DocumentBuilderFactory类相同。
SAXParser:一个定义了不同种类的parser()方法的接口。SAXParser是一个与SAX事件通讯的处理器,可以使用自定义的handler来处理事件。
SAXReader:SAXParser中包含了一个SAXReader,当要使用SAXReader的getXMLReader()方法的时候就需要配置它。
DefaultHandler:类DefaultHandler实现了ContentHandler、ErrorHandler、DTDHandler和EntityResolver接口,通过继承这个类,我们可以实现解析XML文档的所有任务。
ContentHandler:当遇到XML文档中的标签时,就将会调用这个接口中的startDocument、endDocument、startElement和 endElement 方法。当遇到XML文档中的元素内容时,将调用characters方法。
ErrorHandler:当遇到不同类型的错误的时候分别调用相应的错误方法,这些方法包括:error、fatalError和warning等。
DTDHandler:该接口所定义的方法只用在处理DTD信息的时候。
EntityResolver:该接口中的resolveEntity方法只在遇到URI标识数据的时候才调用。
SAX解析文档过程举例
对于一个XML文档举例来说
<doc>
<para>Hello,World!</para>
</doc>
其解析的过程为:
1.start document
2.start element:doc......
3.start element:para.....
4.characters:Hello,World!
5.end element:para......
6.end element;doc......
7.end document
对于解析过程中的每一步都会有事件发生,都会触发相应接口中的事件处理程序。
编写程序的步骤为:
(1).创建事件处理程序(也就是编写ContentHandler的实现类,一般继承自DefaultHandler类,采用adapter模式)
(2).创建SAX解析器
(3).将事件处理程序分配到解析器
(4).对文档进行解析,将每个事件发送给事件处理程序
SAX接口介绍
ContentHandler接口 (主要用到的接口)
ContentHandler是Java类包中一个特殊的SAX接口,位于org.xml.sax包中。该接口封装了一些对事件处理的方法,当XML解析器开始解析XML输入文档时,它会遇到某些特殊的事件,比如文档的开头和结束、元素开头和结束、以及元素中的字符数据等事件。当遇到这些事件时,XML解析器会调用ContentHandler接口中相应的方法来响应该事件。
ContentHandler接口的方法有以下几种:
void startDocument() //文档解析开始的处理
void endDocument() //文档解析结束的处理
void startElement(String uri, String localName, String qName, Attributes atts) //ElementNode开始的处理
void endElement(String uri, String localName, String qName) //ElementNode结束的处理
void characters(char[ ] ch, int start, int length) //具体在某一节点中的处理
DTDHandler接口
DTDHandler用于接收基本的DTD相关事件的通知。该接口位于org.xml.sax包中。此接口仅包括DTD事件的注释和未解析的实体声明部分。SAX解析器可按任何顺序报告这些事件,而不管声明注释和未解析实体时所采用的顺序;但是,必须在文档处理程序的startDocument()事件之后,在第一个startElement()事件之前报告所有的DTD事件。
DTDHandler接口包括以下两个方法
void startDocumevoid notationDecl(String name, String publicId, String systemId) nt()
void unparsedEntityDecl(String name, String publicId, String systemId, String notationName)
EntityResolver接口
EntityResolver接口是用于解析实体的基本接口,该接口位于org.xml.sax包中。
该接口只有一个方法,如下:
public InputSource resolveEntity(String publicId, String systemId)
解析器将在打开任何外部实体前调用此方法。此类实体包括在DTD内引用的外部DTD子集和外部参数实体和在文档元素内引用的外部通用实体等。如果SAX应用程序需要实现自定义处理外部实体,则必须实现此接口。
ErrorHandler接口
ErrorHandler接口是SAX错误处理程序的基本接口。如果SAX应用程序需要实现自定义的错误处理,则它必须实现此接口,然后解析器将通过此接口报告所有的错误和警告。
该接口的方法如下:
void error(SAXParseException exception) //不同级别的处理方式
void fatalError(SAXParseException exception)
void warning(SAXParseException exception)
一个简单例子:
xml文档:
Jxml代码
<?xml version="1.0"?>
<books>
<book id="11">
<name>effective java</name>
<price>100.3</price>
</book>
<book id="12">
<name>javaScript</name>
<price>39.3</price>
</book>
</books>
<?xml version="1.0"?>
<books>
<book id="11">
<name>effective java</name>
<price>100.3</price>
</book>
<book id="12">
<name>javaScript</name>
<price>39.3</price>
</book>
</books>
我们需要一个文档处理的类,一般需要继承之 contentHandler
Java代码
package com.ming.util.saxparse;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class MyContentHandler extends DefaultHandler {
private String preName = null; // 当前节点元素的名字
private final String NAME = "name";
private final String PRICE = "prcie";
private final String BOOK = "book";
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
if (qName.equals(BOOK)) {
// doto 具体对名字的业务处理,这里我只是简单的进行输出
System.out.println( BOOK+ ":" + attributes.getQName(0)+" value:"+attributes.getValue(0));
}
preName = qName;//标记当前的标签名字
}
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
preName = null;// 一次处理完后重置标签名
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
if (null != preName) {
String temp = new String(ch, start, length);
if (preName.equals(NAME)) {
// doto 具体对名字的业务处理,这里我只是简单的进行输出
System.out.println(NAME + ":" + temp);
} else if (preName.equals(PRICE)) {
System.out.println(PRICE + ":" + temp);
}
}
}
}
package com.ming.util.saxparse;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class MyContentHandler extends DefaultHandler {
private String preName = null; // 当前节点元素的名字
private final String NAME = "name";
private final String PRICE = "prcie";
private final String BOOK = "book";
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
if (qName.equals(BOOK)) {
// doto 具体对名字的业务处理,这里我只是简单的进行输出
System.out.println( BOOK+ ":" + attributes.getQName(0)+" value:"+attributes.getValue(0));
}
preName = qName;//标记当前的标签名字
}
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
preName = null;// 一次处理完后重置标签名
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
if (null != preName) {
String temp = new String(ch, start, length);
if (preName.equals(NAME)) {
// doto 具体对名字的业务处理,这里我只是简单的进行输出
System.out.println(NAME + ":" + temp);
} else if (preName.equals(PRICE)) {
System.out.println(PRICE + ":" + temp);
}
}
}
}
现在还需要一个客户端的调用类:
Java代码
package com.ming.util.saxparse;
import java.io.IOException;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.XMLReaderFactory;
public class MySaxParse {
public static void main(String[] args) throws SAXException, IOException {
MyContentHandler myHandler = new MyContentHandler();
XMLReader reader = XMLReaderFactory.createXMLReader();
reader.setContentHandler(myHandler);
//reader.setErrorHandler(myHandler); //错误的处理器
reader.parse("/home/inter12/Templates/test.xml");
}
}
package com.ming.util.saxparse;
import java.io.IOException;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.XMLReaderFactory;
public class MySaxParse {
public static void main(String[] args) throws SAXException, IOException {
MyContentHandler myHandler = new MyContentHandler();
XMLReader reader = XMLReaderFactory.createXMLReader();
reader.setContentHandler(myHandler);
//reader.setErrorHandler(myHandler); //错误的处理器
reader.parse("/home/inter12/Templates/test.xml");
}
}
XMLReader提供了两种方式的解析 :
传入的为输入流:
Java代码
public void parse (InputSource input)
throws IOException, SAXException;
public void parse (InputSource input)
throws IOException, SAXException;
传入的为一个URI:本案例采用的就是这样方式
Java代码
public void parse (String systemId)
throws IOException, SAXException;