一、目的
这个功能已经完成很久了,一直没有想起来去整理成文,今天就把它整理出来,供大家参考和批评。这个导出功能也研究了好几天,同时也看了很多人写的博客,真的是千篇一律,好多都不是我想要的功能,为什么要做导出word呢,肯定是工作需要了,是将公司的博文导出来,这个博文,因为是用的ueditor在线编辑器,肯定会将很多样式存到数据库中,这里面导出处理就会很麻烦。
二、准备工作
网上我看了好多关于导出word文档的方法,最常见的有poi(应该能实现,没去尝试)、java-jacob(jacob需要调用本地的dll,而且在linux上市不能用的,只能在windows平台下运行)、itext生成rtf(不清楚)、freemark(本文方法),最初我也只是尝试过java-jacob但是只能支持windows,现在一般的服务器都是linux,所以肯定pass。
所需jar包:freemark-2.3.15.jar
三、正文
用freemark我们知道它是根据ftl模板来生成对应的word文件的,可以是xml格式,可以是html、也可以是mht格式,但最终都能通过修改后缀名来形成word文档,而Microsoft Word 都能识别,只要你生成的几种格式没有语法错误。xml格式应该是word文件流标准版,而html是网页形式,mht单一文件形式(css、图片等都包含在内)。
用xml确实能实现,但是工作量非常巨大,因为字体格式只能通过<w:rFonts><wx:font>来描述,所以这就面临一个问题,我们的数据源是带有css样式的,我们不可能再单独把css样式拿出来描述一遍,工作量巨大,如果强制性把数据源放入<w:t></w:t>标签,可想而知肯定会报错。
所以实现标准版显然是不可能了,而且我们还要导出图片呢,尝试html
首先建立一个ftl文件,blog.ftl
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 11">
<meta name=Originator content="Microsoft Word 11">
<link rel=File-List href="blog.files/filelist.xml">
<title>${title}</title>
<!--[if gte mso 9]><xml>
<o:DocumentProperties>
<o:Author>User</o:Author>
<o:LastAuthor>User</o:LastAuthor>
<o:Revision>2</o:Revision>
<o:TotalTime>0</o:TotalTime>
<o:Created>2014-07-28T01:43:00Z</o:Created>
<o:LastSaved>2014-07-28T01:43:00Z</o:LastSaved>
<o:Pages>1</o:Pages>
<o:Words>10</o:Words>
<o:Characters>59</o:Characters>
<o:Company>微软中国</o:Company>
<o:Lines>1</o:Lines>
<o:Paragraphs>1</o:Paragraphs>
<o:CharactersWithSpaces>68</o:CharactersWithSpaces>
<o:Version>11.9999</o:Version>
</o:DocumentProperties>
</x