Java与XML联合编程之JDOM/JAXB篇

从XML诞生之日起,它就一直是业界的焦点话题之一。经过了几年的发展,XML技术日趋成熟,现在越来越多的应用都是基于XML开发的。在Internet日益普及的今天,分布式编程日显重要,越来越多的应用都开始向这一方向转型。在这一领域中,XML作为一种中间的数据接口,已经显示出其不可替代的重要性。与此同时,Java语言开发Internet分布式应用程序的潜力也被越来越多的人看好,EJB体系结构也日渐成熟。利用Java,人们可以很迅速的开发出可移植的、弹性好的、易于管理的分布式应用程序。

Java语言一直都被认为是最适合进行XML编程的语言之一。与平台无关的语言Java加上与平台无关的数据XML,确实能够完成最为复杂且弹性最好的分布式应用。

在Java应用中引入XML,其实并不是很难,而且已经有诸多规范和诸多的类库开发出来,以简化Java中的XML的编程。在这些规范中,最为流行的就是SAX和DOM,后者也是W3C所推荐的标准。而支持XML的Java类库更是不胜枚举,除了Sun所发布的JXAP之外,还有像IBM、Microsoft等巨头所提供的类似产品。而且,这些产品大多都是免费的,用起来不用花一分钱。所有的这些规范和类库,已经在很大程度上简化了XML编程的复杂系数,你只需要了解这些规范和JXAP所定义的API,就已经能够进行XML编程了。而我们这篇文章的目的,也就是为大家介绍这些规范和API。相信读完本文后,您就不会再认为XML编程是多么困难的事了。

背景知识
关于XML的讨论已经很多了,对于XML的看法也是见仁见智。要给XML下一个确切的定义是一件很困难的事情,但我们可以从下面四个方面来看:

1.XML是一种被设计成方便的用来在Internet上传播的标记语言。XML与SGML兼容(确切的说是SGML的一个简化了的子集),并且能够很容易的在任何文本编辑器中进行浏览和编辑。

2.XML用来定义数据的逻辑结构,用树的方式将所有的数据组织起来,这使得XML文档很容易理解和处理。而XML文档的结构是通过DTD或者Schema预先定义的,这使得XML中的数据在特定的应用中都能够有确切的含义。

3.XML是一种定义严格的语言,它几乎没有定义什么可选的特性。这使得XML达到了最大程度的通用性,任何与XML兼容的解析器都可以对一个合法的XML文档进行解析而不会出现任何错误。这样,XML就能够作为一种最广义的中介,在各种平台,各种语言和各种程序中流通。

4.XML是一种用来定义数据和原数据的语法,这就使得你能够定义数据本身。这也是XML最重要的特性之一,因为从理论上讲,任何东西都可以用数据进行描叙。也就是说,由于XML提供了描叙数据的方法,因而也就具备了描叙任何事物的能力。

关于XML的应用,我们举一个简单的例子来看看它的威力所在。

现在的大部分网站都是用HTML编写的。网页设计师们精心设计的网页,能够在Web浏览器上很漂亮的显示出来,但是如果想把这些网页所包含的内容重新设计在一本书中的话,显然,浏览器上的漂亮内容就不能很方便的在书中体现出来了。我们知道,HTML是一种结构性很差的语言,它将显示和内容紧密的结合在一起,要将内容有选择的从HTML文件中分离出来是非常困难的,特别是在那些设计精美的网页中。这时候,或许唯一的办法就是重新进行设计了。但是,XML的出现为解决这种问题提供了一种良好的解决方案。

因为XML只是定义数据,它并不关心数据是如何显示的,所以用XML设计出的网站其内容和显示是分离的。一般的网页是通过XSLT对给定的XML文档进行变换之后生成的。现在我们要将网站的内容放在一本书中,只需要重新定义XSLT,给出变化规则,就可以将内容完美的再现在另外的一种形式中了。

上面所讲述的只是XML应用的一个重要方面,实际上现在XML的应用远远不止如此,很多协议比如SOAP,都是基于XML的。

下面的内容,就是具体的XML编程了。由于本文假定您已对Java语言(或者其它面向对象的语言)有了一定的了解,因而对一些关于语言的细节问题,就不再赘述了。


Java下XML编程接口比较:DOM SAX JDOM JAXP

一、DOM (文档对象模型)
为 XML 文档的已解析版本定义了一组接口。解析器读入整个文档,然后构建一个驻留内存的树结构,然后代码就可以使用 DOM 接口来操作这个树结构。
优点:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;
缺点:将整个文档调入内存(包括无用的节点),浪费时间和空间;
使用场合:一旦解析了文档还需多次访问这些数据;
硬件资源充足(内存、CPU)

二、SAX
为解决DOM的问题,出现了SAX。
SAX ,事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或结束等时,发送事件,程序员编写响应这些事件的代码,保存数据。
优点:不用事先调入整个文档,占用资源少;
SAX解析器代码比DOM解析器代码小,适于Applet,下载
缺点:不是持久的;事件过后,若没保存数据,那么数据就丢了;
无状态性;从事件中只能得到文本,但不知该文本属于哪个元素;
使用场合:Applet;
只需XML文档的少量内容,很少回头访问;
机器内存少;

三、JDOM
为减少DOM、SAX的编码量,出现了JDOM;
优点:20-80原则,极大减少了代码量
使用场合:要实现的功能简单,如解析、创建等
Java程序

但在底层,JDOM还是使用SAX(最常用)、DOM、Xanan

四、JAPX
为多个XML解析器提供了统一编程接口
更换解析器,不用更改代码
使用场合:若不用Jdom,一般建议使用JAPX,将代码与各种解析器的实现细节隔离。


(一)JDOM的介绍以及与JAXB的比较

Java + XML = JDOM !
这就是JDOM设计者的目标。如果你曾经使用过烦人的SAX或是DOM来处理XML,你就会知道为什么要有JDOM或者是JAXB。在今年(2002)的JavaOne会议上JDOM的主要创始人Jason Hunter有一篇精彩的演讲介绍了JDOM技术,题目就是JDOM Makes XML Easy。
在那篇文档里,JDOM被拿来与DOM比较,而我更愿意拿它同JAXB比较。因为JAXB和JDOM都是为了在Java中提供比DOM和SAX更为方便的XML处理接口而开发的,并且通过完全不同的途径来解决这个问题。JDOM的处理方式是与DOM类似的树操作。而JAXB通过DTD和绑定模式来生成访问XML文档的Java代码,将XML映射成了Java对象来操作。你可以根据项目的需要和个人喜好来决定采用哪一个。
JDOM与JAXB的比较,从本身的特点来看:
1) JDOM比JAXB更容易上手。使用JAXB首先要会编写DTD,然后还要会编写绑定模式。JDOM没有这样的要求,如果你会Java和XML,甚至可以说光是看JDOM的javadoc文档就能够使用JDOM。
2) JAXB编写好DTD和绑定模式以后,XML文档被映射成了Java对象,其数据就是Java对象的属性,连数据类型都做好了转换,因此,访问XML文档比JDOM要简便,可以说是一劳永逸。
3) JAXB由某个DTD和绑定模式生成的代码只能访问该DTD所约束的文档。如果想要访问其他XML文档,需要再编写DTD和绑定模式。JDOM可以处理任何XML文档,包括受约束的和不受约束的。

目前JDOM和JAXB都没有正式版本。JDOM的最新版本是beta8,JAXB是1.0 early access,其规范版本是0.21。相对而言,JDOM更成熟一些。例如JAXB不支持名字空间、不能向XML文档写入处理指令,有时我们需要保留的换行符和首尾空格在JAXB中自动过滤掉了,就连放在<![CDATA[ 和 ]]>里面也不能幸免。JDOM就没有这些限制。如果说以上的3点比较是JDOM和JAXB本身的特点所决定的,几乎不可能改变,那么这里表明,JAXB还需要更多的工作。

(二)获得并安装JDOM
在http://jdom.org可以下载JDOM的最新版本。以JDOM beta8的2进制版本为例。下载后解压缩,JDOM的jar文件就是build目录下的文件jdom.jar,将之加入类路径。另外JDOM还需要lib目录下那些jar文件如xerces.jar的支持。如果在使用中出现以下错误:
java.lang.NoSuchMethodError

java.lang.NoClassDefFoundError: org/xml/sax/SAXNotRecognizedException
你需要保证xerces.jar文件在CLASSPATH中位于其他XML类,如JAXP或Crimson之前,这些类文件,包括以前老版本的xerces,可能不支持SAX2.0或DOM Level 2。于是导致了上面的错误。

(三)一个简单的例子
JDOM的处理方式有些类似于DOM,但它主要是用SAX实现的,你不必担心处理速度和内存的问题。另外,JDOM中几乎没有接口,的类全部是实实在在的类,没有类工厂类的。其最重要的一个包org.jdom中主要有以下类:
? Attribute
? CDATA
? Comment
? DocType
? Document
? Element
? EntityRef
? Namespace
? ProcessingInstruction
? Text
数据输入要用到XML文档要通过org.jdom.input包,反过来需要org.jdom.output。如前面所说,关是看API文档就能够使用。
我们的例子读入XML文件exampleA.xml,加入一条处理指令,修改第一本书的价格和作者,并添加一条属性,然后写入文件exampleB.xml:
//exampleA.xml
<?xml version="1.0" encoding="GBK"?>
<bookList>
   <book>
       <name>Java编程入门</name>
       <author>张三</author>
       <publishDate>2002-6-6</publishDate>
       <price>35.0</price>
   </book>
   <book>
       <name>XML在Java中的应用</name>
       <author>李四</author>
       <publishDate>2002-9-16</publishDate>
       <price>92.0</price>
   </book>
</bookList>

//testJDOM.java
import org.jdom.*;
import org.jdom.output.*;
import org.jdom.input.*;
import java.io.*;
public class TestJDOM{
   public static void main(String args[])throws Exception{
       
       SAXBuilder sb = new SAXBuilder();

       //从文件构造一个Document,因为XML文件中已经指定了编码,所以这里不必了
       Document doc = sb.build(new FileInputStream("exampleA.xml"));
       
       //加入一条处理指令
       ProcessingInstruction pi = new ProcessingInstruction
           ("xml-stylesheet","href="bookList.html.xsl" type="text/xsl"");
       doc.addContent(pi);


       Element root = doc.getRootElement(); //得到根元素
       java.util.List books = root.getChildren(); //得到根元素所有子元素的集合
       Element book = (Element)books.get(0); //得到第一个book元素
       //为第一本书添加一条属性
       Attribute a = new Attribute("hot","true");  
       book.setAttribute(a);
       Element author = book.getChild("author"); //得到指定的字元素
       author.setText("王五"); //将作者改为王五
       //或 Text t = new Text("王五");book.addContent(t);
       Element price = book.getChild("price"); //得到指定的字元素
       //修改价格,比较郁闷的是我们必须自己转换数据类型,而这正是JAXB的优势
       author.setText(Float.toString(50.0f));
       


       String indent = "    ";
       boolean newLines = true;
       XMLOutputter outp = new XMLOutputter(indent,newLines,"GBK");
       outp.output(doc, new FileOutputStream("exampleB.xml"));

   }
};

执行结果exampleB.xml:
<?xml version="1.0" encoding="GBK"?>
<bookList>
   <book hot=”true”>
       <name>Java编程入门</name>
       <author>50.0</author>
       <publishDate>2002-6-6</publishDate>
       <price>35.0</price>
   </book>
   <book>
       <name>XML在Java中的应用</name>
       <author>李四</author>
       <publishDate>2002-9-16</publishDate>
       <price>92.0</price>
   </book>
</bookList>
<?xml-stylesheet href="bookList.html.xsl" type="text/xsl"?>

在默认情况下,JDOM的Element类的getText()这类的方法不会过滤空白字符,如果你需要过滤,用setTextTrim() 。


(四)参考文档
1) JDOM Makes XML Easy (http://www.servlets.com/speaking/jdom-javaone.pdf)
2) The Java &#8482; Architecture for XML Binding User’s Guide (http://java.sun.com/xml/jaxb/jaxb-docs.pdf)
3) Web Services Made Easier. The Java TM APIs and Architectures for XML, A Technical White Paper (http://java.sun.com/xml/webservices.pdf )

什么时候使用DOM 


--------------------------------------------------------------------------------

如果你的XML文档包含文档数据(例如, Framemaker documents stored in XML format), 那么DOM就是你的解决方案的最自然选择。如果你要创建一些类似于文档信息管理的系统,那么你不得不处理大量的文档数据。Datachannel RIO 产品就是这么一个例子,它可以索引和组织各种类型文档资源中的信息(例如Word和Excel 文件)。在这种情况下,DOM是非常合适程序去访问存贮在这些文档中的信息的。

然而,如果你主要处理的是结构化的数据(在XML中的序列化的JAVA对象the equivalent of serialized Java objects in XML),DOM不是最好的选择。那就是SAX会比较合适的地方。

什么时候使用SAX 


--------------------------------------------------------------------------------

如果在你XML文档中的信息是机器易读的(和机器生成的)数据,那么SAX是让你可以访问这些信息的合适的API。机器易读和生成的数据类型包含像下面这些东东:

存成XML格式的Java对象属性
用一些以文本为基础的查询语句(SQL, XQL, OQL)表示的查询
由查询生成的结果集(这也许包含关系型数据库表中的数据编码成XML).
这么看来机器生成的数据是你一般要在java中生成数据结构和类的信息。一个简单的例子是包含个人信息的地址簿,在上图所示。这个地址簿xml文件不像字处理器文档,它是一个包含已经被编码成文本的纯数据的XML文档。

当你的数据是这种样式,你要创建你自己的数据结构和类(对象模型)来管理操作以及持续保存这些数据。SAX容许你快速创建一个可以生成你的对象模型实例的处理器类。一个实例是:一个SAX文档处理器。它完成的工作有读入包含我的地址薄信息的XML文档,创建一个可以访问到这些信息的AddressBook类。SAX指南告诉你该怎么做到这些。这个地址薄XML文档包含person元素,person元素中有name和email元素。我的AddressBook对象模型包括下面的类:

AddressBook 类,Person对象的容器
Person 类,String 型的name和email的容器
这样我的“SAX 地址簿文档处理器”可以把person元素转变成Person对象了,然后把它们都存入AddressBook对象。这个文档处理器将name和email元素转变为String对象。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值