几个解析XML的例子



例一:

package simpleTest;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.Locator;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.helpers.DefaultHandler;
import java.io.IOException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
class TestSAX extends DefaultHandler
{
private StringBuffer buf;
public TestSAX()
{
super();
}
public void setDocumentLocator(Locator locator)
{
}
public void startDocument() throws SAXException

{

buf=new StringBuffer();

System.out.println("*******开始解析文档*******");

}

public void endDocument() throws SAXException

{

System.out.println("*******文档解析结束*******");

}

public void startPrefixMapping( String prefix, String uri )

{

System.out.println(" 前缀映射: " + prefix +" 开始!"+ " 它的URI是:" + uri);

}

public void endPrefixMapping( String prefix )

{

System.out.println(" 前缀映射: "+prefix+" 结束!");

}

public void processingInstruction( String target, String instruction )

throws SAXException

{

}

public void ignorableWhitespace( char[] chars, int start, int length ) throws SAXException

{

}

public void skippedEntity( String name ) throws SAXException

{

}

public void startElement(String namespaceURI,String localName,String qName,Attributes atts)

{

System.out.println("*******开始解析元素*******");

System.out.println("元素名"+qName);

for(int i=0;i<atts.getLength();i++)

{

System.out.println("元素名"+atts.getLocalName(i)+"属性值"+atts.getValue(i));

}

}

public void endElement(String namespaceURI,String localName,String fullName )throws SAXException

{

System.out.println("******元素解析结束********");

}

public void characters( char[] chars, int start, int length )throws SAXException
{
//将元素内容累加到StringBuffer中
buf.append(chars,start,length);
}
public static void main(String args[])
{
try{
SAXParserFactory sf = SAXParserFactory.newInstance();
SAXParser sp = sf.newSAXParser();
TestSAX testsax=new TestSAX();
sp.parse(new InputSource("D:\test\simpleTest\classes\simpleTest\test.xml"),testsax);
}catch(IOException e)
{
e.printStackTrace();
}catch(SAXException e)
{
e.printStackTrace();
}catch(Exception e){
e.printStackTrace();
}
}
}
XML文件如下:
<?xml version="1.0" encoding="gb2312"?>
<row>
<person>
<name>王小明</name>
<college>信息学院</college>
<telephone>6258113</telephone>
<notes>男,1955年生,博士,95年调入海南大学</notes>
</person>
</row>

例二:

XML文档样本:
<?xml version="1.0"?>
<simple date="7/7/2000" >
<name> Bob </name>
<location> New York </location>
</simple>


代码:
package xmltest;
import javax.xml.parsers.*;
import org.xml.sax.*;
import org.xml.sax.helpers.*;
import java.io.*;
public class SaxTest extends DefaultHandler {
// 重载DefaultHandler类的方法
// 以拦截SAX事件通知。
//
// 关于所有有效事件,见org.xml.sax.ContentHandler
//
public void startDocument( ) throws SAXException {
System.out.println( "SAX Event: START DOCUMENT" );
}
public void endDocument( ) throws SAXException {
System.out.println( "SAX Event: END DOCUMENT" );
}
public void startElement( String namespaceURI,
String localName,
String qName,
Attributes attr ) throws SAXException {
System.out.println( "SAX Event: START ELEMENT[ " +
localName + " ]" );
// 如果有属性,我们也一并打印出来...
for ( int i = 0; i < attr.getLength(); i++ ){
System.out.println( " ATTRIBUTE: " +
attr.getLocalName(i) +
" VALUE: " +
attr.getValue(i) );
}
}
public void endElement( String namespaceURI,
String localName,
String qName ) throws SAXException {
System.out.println( "SAX Event: END ELEMENT[ " +
localName + " ]" );
}
public void characters( char[] ch, int start, int length )
throws SAXException {
System.out.print( "SAX Event: CHARACTERS[ " );
try {
OutputStreamWriter outw = new OutputStreamWriter(System.out);
outw.write( ch, start,length );
outw.flush();
} catch (Exception e) {
e.printStackTrace();
}
System.out.println( " )" );
}
public static void main( String[] argv ){
System.out.println( "Example1 SAX Events:" );
try {
// SAXParserFactory spFactory = SAXParserFactory.newInstance();
// SAXParser sParser = spFactory.newSAXParser();
// 建立SAX 2解析器...
XMLReader xr = XMLReaderFactory.createXMLReader
("org.apache.xerces.parsers.SAXParser");
// 安装ContentHandler...
xr.setContentHandler( new SaxTest() );
// 解析文件...
xr.parse( new InputSource(
new FileReader( "exampleA.xml" )) );
}catch ( Exception e ) {
e.printStackTrace();
}
}
}


当前SAX API有两个版本。第二版中的类名和方法名与第一版都有出入,但是代码的结构是一样的。
SAX是一套API,它不是一个解析器,所以这个代码在XML解析器中是通用的。要让示例跑起来,你将需要一个支持SAX v2的XML解析器。我用Apache的Xerces解析器.代码如下
// 建立SAX 2解析器...
XMLReader xr = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");

// 安装ContentHandler...
xr.setContentHandler( new SaxTest() );
SAX API 的说明书通俗易读。它包含了很多的详细内容。而使用SAX API的主要任务就是创建一个实现ContentHandler接口,一个供XML 解析器调用以将分析XML文档时所发生的SAX事件分发给处理程序的回调接口。

方便起见,SAX API也提供了一个已经实现了ContentHandler接口的DefaultHandler适配器类。

一但实现了ContentHandler或者扩展了DefaultHandler类,你只需直接将XML解析器解析一个特定的文档即可。

我们的第一个例子扩展DefaultHandler将每个SAX事件打印到控制台。这将给你一个初步的映象,以说明什么SAX事件将会发生及以怎样的顺序发生。

下面介绍一下其它操作XML的API
stax(simple stream api for xml)作为jsr已经出现几年时间了,可能不如sax,dom(及其他基于其上的工具包比如jdom,jaxp,etc)为众人所知。可能也是因为最近xfire的火热 导致它的知名度有所提升吧。(题 外话,好象有不少知识点一直都是默默无闻的,只有随着某项技术的流行才突然变的为人所知道了,比如ThreadLocal本来我们一直没有接触,很多人可能一直都不知道它的存在,但随着它在spring ,hibernate这些流行的技术里的灵巧的应用,一下子就被很多人谈及及应用了。可见我们的水平还是属于跟在老外屁股后面跑的水平)。
通过和dom,sax这两种大家熟知的xml解析方式的比较,可以容易的看出它的特点。
dom通过把整个tree 文档读入内存进行操作,可以随意对文档进行操作,非常灵活。但缺点是对内存的资源耗费比较大。
sax不同于dom把整个文档读入内存的方式,它是直接对 xml文件进行操作。速度快,基本上不占用什么内存资源。缺点看看它的名字就知道了(simple api for xml),基于event的方式(这点和stax类似),但是是通过callback的方式把对xml的遍历权交给sax parser了。这样导致我们不能灵活控制对xml文件的访问。

stax通过stream的方式来解决sax,dom各自的缺点,同时具有他们大部分的优点(我想底层实现是不是通过直接操作文件流的方式,还没有看它的实现的src,不敢乱说)。stax主要有两中粒度不同的操作方式 ,一种基于event, 另一种更底层的实现基于cursor。初一看实现方式有点象sax,因为都是基于event的。但是sax把访问控制权交给parser(通过callback))了,我们很难控制iterat过程。stax允许我们自己控制iterat.
所以stax的优点如下:基于stream的方式,不象dom耗费内存资源。又可以自己控制对xml的iterat,不象sax把控制权交给parser).还有一个优点就是可以在iterat的过程中随时cancel。虽然sax 也可以通过 throw saxexception的方式中断iterat过程,但毕竟不是一中优美的解决方案。当然stax的还提供了以stream的方式进行write xml的操作。

具体的stax应用可以看ibm的系列教程文章,比较老了了点。http://www-128.ibm.com/developerworks/xml/library/x-tipstx/

具体实现,除了bea的一个ri实现外,不知道还有其他的实现没有(stax jsr好象最早由bea提出来)?

个人感觉stax的应用还是有些麻烦,期待(或则是不是已经有了?)能有更高层次的封装(类似于jdom,jaxp实现之类的)。

 

例三:

使用SAX解析XML

一、        前言

用Java解析XML文档,最常用的有两种方法:使用基于事件的XML简单API(Simple API for XML)称为SAX和基于树和节点的文档对象模型(Document Object Module)称为DOM。Sun公司提供了Java API for XML Parsing(JAXP)接口来使用SAX和DOM,通过JAXP,我们可以使用任何与JAXP兼容的XML解析器。

JAXP接口包含了三个包:

(1)       org.w3c.dom  W3C推荐的用于XML标准规划文档对象模型的接口。

(2)       org.xml.sax   用于对XML进行语法分析的事件驱动的XML简单API(SAX)

(3)       javax.xml.parsers解析器工厂工具,程序员获得并配置特殊的特殊语法分析器。

二、        前提

DOM编程不要其它的依赖包,因为JDK里自带的JDK里含有的上面提到的org.w3c.dom、org.xml.sax 和javax.xml.parsers包就可以满意条件了。

三、        使用SAX解析XML文档

SAX是基于事件的简单API,同样的我们也是用一个最简单的例子来看看SAX是如何解析XML的

先来看看我们要解析的XML代码吧

<?xml version="1.0" encoding="gb2312"?>

<books>

  <book email="zhoujunhui">

             <name addr="address">rjzjh</name>

             <price>jjjjjj</price>

  </book>

</books>

简单的不能再简单了。但是该有的都有了,根元素、属性、子节点。好了,能反应问题就行了,下面来看看解析这个XML文件的Java代码吧!

1 public class SaxParse {

2     public SaxParse(){

3            SAXParserFactory saxfac=SAXParserFactory.newInstance();

4            try {

5                   SAXParser saxparser=saxfac.newSAXParser();

6                   InputStream is=new FileInputStream("bin/library.xml");

7                   saxparser.parse(is,new MySAXHandler());

8            } catch (ParserConfigurationException e) {

9                   e.printStackTrace();

10           } catch (SAXException e) {

11                  e.printStackTrace();

12           } catch (FileNotFoundException e) {

13                  e.printStackTrace();

14           } catch (IOException e) {

15                  e.printStackTrace();

16           }

17    }

18    public static void main(String[] args) {

19           new SaxParse();

20    }

21  }
这段代码比较短,因为SAX是事件驱动的,它的大部分实现在在另一个Java文件中,先别管另一个文件,我们来一个个地分析吧!
(1)得到SAX解析器的工厂实例
3            SAXParserFactory saxfac=SAXParserFactory.newInstance();
这是一个javax.xml.parsers.SAXParserFactory类的实例
(2)从SAX工厂实例中获得SAX解析器
5            SAXParser saxparser=saxfac.newSAXParser();
使用javax.xml.parsers.SAXParserFactory工厂的newSAXParser()方法
(3)把要解析的XML文档转化为输入流,以便DOM解析器解析它
6                   InputStream is=new FileInputStream("bin/library.xml");
InputStream是一个接口。
(4)解析XML文档
7                   saxparser.parse(is,new MySAXHandler());
后面就不用看了,都是些没用的代码(相对而言),够简单的吧!
注意了,我们新建了一个实例new MySAXHandler()这个实例里面又有什么东西呢?
这个实例就是SAX的精华所在。我们使用SAX解析器时,必须实现内容处理器ContentHandler接口中的一些回调方法,然而我们不须要全部地实现这些方法,还好,我们有org.xml.sax.helpers.DefaultHandler类,看它的类申明:
public class DefaultHandler
implements EntityResolver, DTDHandler, ContentHandler, ErrorHandler
实现了这么多接口啊,其它的先不管了,至少它实现了ContentHandler这一接口。
好了,看看这个类有些什么吧?下面是它的Java代码!
public class MySAXHandler extends DefaultHandler {
       boolean hasAttribute=false;
       Attributes attributes=null;
       /* (非 Javadoc)
        * @see org.xml.sax.helpers.DefaultHandler#startDocument()
        */
       public void startDocument() throws SAXException {
               System.out.println("文档开始打印了");
       }
       /* (非 Javadoc)
        * @see org.xml.sax.helpers.DefaultHandler#endDocument()
        */
       public void endDocument() throws SAXException {
              System.out.println("文档打印结束了");
       }
       /* (非 Javadoc)
        * @see org.xml.sax.helpers.DefaultHandler#startElement(java.lang.String, java.lang.String, java.lang.String, org.xml.sax.Attributes)
        */
       public void startElement(String uri, String localName, String qName,
                     Attributes attributes) throws SAXException {
              if(qName.equals("books")){
                     return;
              }
              if(qName.equals("book")){
                     System.out.println(attributes.getQName(0)+attributes.getValue(0));
              }
              if(attributes.getLength()>0){
                     this.attributes=attributes;
                     this.hasAttribute=true;
              }
       }
       /* (非 Javadoc)
        * @see org.xml.sax.helpers.DefaultHandler#endElement(java.lang.String, java.lang.String, java.lang.String)
        */
       public void endElement(String uri, String localName, String qName)
                     throws SAXException {
              if(hasAttribute&&(attributes!=null)){
                     for(int i=0;i<attributes.getLength();i++){
                            System.out.println(attributes.getQName(0)+attributes.getValue(0));
                     }
              }
       }
       /* (非 Javadoc)
        * @see org.xml.sax.helpers.DefaultHandler#characters(char[], int, int)
        */
       public void characters(char[] ch, int start, int length)
                     throws SAXException {
              System.out.println(new String(ch,start,length));
       }
}

不要看它一大堆,我一一分解给大家看。我们说SAX是基于事件的API,我们这个类实到了ContentHandler接口中的如下方法:
(1)startDocument()  用于处理文档解析开始事件
     public void startDocument() throws SAXException {
               System.out.println("文档开始打印了");
        }
(2)endDocument()  用于处理文档解析结束事件
      public void endDocument() throws SAXException {
              System.out.println("文档打印结束了");
        }
(3)startElement  用于处理元素开始事件
     public void startElement(String uri, String localName, String qName,
                     Attributes attributes) throws SAXException {
              if(qName.equals("books")){
                     return;
              }
              if(qName.equals("book")){
                     System.out.println(attributes.getQName(0)+attributes.getValue(0));
              }
              if(attributes.getLength()>0){
                     this.attributes=attributes;
                     this.hasAttribute=true;
              }
       }
第二个参数String qName表示这个元素的名字,如:
根节点  <books></books>  它的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值