最近在项目中要使用技术将一个整体word文档按照目录大纲切割成多个文档(碎化文档),听起来就让人头疼。历经千辛万苦终于搞定了。
首先是选择的是poi 对word文档的分割,但是,poi对.doc 和.docx的操作对象不同,所以使用的方法也不同。poi 在切割.docx文档没问题,但是在切割.doc文档时切割后的最后一个章节内容不完整,并且切割后的文档要使用兼容视图方能打开,查遍api,实在找不到好的办法。最后想通过使用在后台将.doc文档先转化为.docx文档,然后再按照poi切割.docx的方法进行文档碎化。
先说一个后台如何将.doc转化为.docx档的问题。听起来貌似很简单,我说的是后台转换。其实也存在很多问题。也是百度网上太多资料,寻找各种大牛,最后锁定这个玩艺:Aspose-word-for java 这个东西最不好的一点就是不开源。即使把jar 包下载下来进行转换,转换后的文档不但不完整,还有他们本公司自己的水印,真的很无语,因为不开源呀。后来,在csdn上买了420的积分,花了5分,下载了对应的破解后的jar 包,才得以解决此问明。
上代码吧:
String path = "1.doc";
InputStream is = null;
try {
is = new FileInputStream(path);
Document doc = new Document(is);
String filePath ="d:\\2.docx" ;
d