? ? docx4j是一款在java世界处理微软word/ppt/excel文档的强大工具。它其实是一个半开源的产品。虽然它对WORD各种处理在API层 面进行了封装,但是像WORD本身的拆分,合并。其作者(Jason Harrop)是单独提出来了,封装成了商用的JAR包来提供支持。而我在深入学习其API之后,先后将组合,拆分技术进行了实现。
? ? docx4j用到了个比较N的技术--JAXB.它建立了XML文件与JAVA对象互相转换的一个桥梁。
JAXB(Java Architecture for XML Binding) 是一个业界的标准,是一项可以根据XMLSchema产生Java类的技术。该过程中,JAXB也提供了将XML实例文档反向生成Java对象树的方法, 并能将Java对象树的内容重新写到XML实例文档。从另一方面来讲,JAXB提供了快速而简便的方法将XML模式绑定到Java表示,从而使得Java 开发者在Java应用程序中能方便地结合XML数据和处理函数。
WORD以XML存储的原理:
?
WordML以XML的格式定义了文档中各个部分的属性,如页眉,页脚,图片,样式。每一种资源都其实是使用一个XML的结点来描述。举例来说明:
假如有这样一个文档