java合并docx_基于java 合并.doc和docx格式的Word文件

最新推荐文章于 2024-05-16 17:19:21 发布

yypmzqdf

最新推荐文章于 2024-05-16 17:19:21 发布

阅读量693

点赞数

文章标签： java合并docx

本文链接：https://blog.csdn.net/weixin_35384453/article/details/114584489

版权

本文介绍了如何使用Java处理.doc和.docx文件的合并问题，避免了传统方法如jacob的限制。作者提出了一种将Word文件转换为HTML，然后再将HTML合并并转换回.doc或.docx的策略。这种方法可以跨平台运行，且不受并发问题影响。文章详细阐述了转换过程，包括读取文件头判断文件类型、转换doc和docx文件的步骤，以及最终将HTML转换回Word文件的实现代码。

摘要由CSDN通过智能技术生成

之前用过jacob 合并.doc,但是是有jacob有弊端：

服务器必须是Windows操作系统 —— 目前之所以web项目多用Java开发，就是因为服务器可以是Linux、Unix等非Windows的系统来降低项目的成本。

服务器上必须安装Office —— Jacob的意思就是： Java COM Bridge，java中调用office提供的com接口来实现对Office文件的操作。

并发问题 —— 如果多用户同时在线生成word文件就必须处理此并发问题，稍有不慎，就会在服务器端产生Office的死进程，死锁服务器的内存资源。

我遇到的问题是下载并合并附件，这里的附件大多是doc文件，也包含少量的docx文件，但是文件路径是从数据库中读取出来的，均不带后缀名，传统的xwpfdocument和hwpfdocument不能完全解决我的问题；尤其是将文件合并，不能轻易办到，需要对文档进行解析。

这里我采用的方法是将Word文件转换为HTML文件，把Word的合并转化为HTML的合并；这样一来就减少了难度，不过就是还需要再把HTML文件转化为doc文件或者docx文件(此时，你就可以指定是哪种文件了)。

在转换的时候，分两个方向，一个是doc文件转换，另一个是docx文件转换；这里的转换时必须包含文档中的格式的(图片和表格我这里没有进行测试)。如果是没有文件后缀，那么就需要先判断是doc文件还是docx文件，这里用到了一个工具类，就是通过文件的文件头来判断文件类型，因为我这里只是为了区别doc和docx，所以就比较了前四位的16进制数，按照if和else来走两条转换路线。(具体文件的文件头可上网查资料，各种文件都有)。

转换doc文件的时候，是按照字符读取的，判断每个字符的字体颜色和样式，将其转换为HTML的代码，最后应该是整个稳当的HTML的字符串的累加，因为我这里是合并，所以我使用for循环进行了文件主体的叠加，最后在循环的外面加上HTML的头部和尾部信息即可。除此之外，根据需求，需要在不同文档之间插入分页符，分页符用HTML代码可以表示，"
"；需要的直接添加即可。

然后是docx文件的转换，这里的就不像doc文件可以按照每个字符来读了，而是将整个文档直接转换为HTML文件，通过打印字符串可以得知，转换出来的HTML代码就是一个大的div，如果直接使用这个代码，合并的时候格式就不统一了，所以需要将图中的style样式去掉，直接用字符串截取，并加上一个空的

即可。

最后，再将HTML文件转为doc或者docx，可以将路径放在服务器上面，并且实现下载就行(建议每次下载完之后将该文件清空，可以循环利用)。详细代码如下。

package com.landray.kmss.km.doc.util;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.util.ArrayList;

import java.util.List;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.model.PicturesTable;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;

import org.apache.poi.hwpf.usermodel.TableRow;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordExcelToHtml {

/**

* 回车符ASCII码

private static final short ENTER_ASCII = 13;

/**

* 空格符ASCII码

private static final short SPACE_ASCII = 32;

/**

* 水平制表符ASCII码

private static final short TABULATION_ASCII = 9;

// public static String htmlText = "";

public static String mainText = "";

public static String htmlTextTbl = "";

public static int counter = 0;

public static int beginPosi = 0;

public static int endPosi = 0;

public static int beginArray[];

public static int endArray[];

public static String htmlTextArray[];

public static boolean tblExist = false;

public static void main(String argv[]) {

try {

String htmlText = "

+ "

"; //将每一个Word中的主体部分拿出来，合并之后加上HTML的头和尾，但是要注意编码

List list = new ArrayList();

String file1 = "D://file8";

String file2 = "D://file9";

String file3 = "D://file11";

list.add(file1);

list.add(file2);

list.add(file3);

// String mainText1 = "";

for (int i = 0; i < list.size(); i++) {

htmlText += getWordAndStyle(list.get(i))

+ "
";

最低0.47元/天解锁文章

yypmzqdf

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java合并docx_基于java 合并.doc和docx格式的Word文件

之前用过jacob 合并.doc,但是是有jacob有弊端：服务器必须是Windows操作系统—— 目前之所以web项目多用Java开发，就是因为服务器可以是Linux、Unix等非Windows的系统来降低项目的成本。服务器上必须安装Office —— Jacob的意思就是：Java COM Bridge，java中调用office提供的com接口来实现对Office文件的操作。并发问题—...
复制链接

扫一扫

java合并docx_基于java 合并.doc和docx格式的Word文件

“相关推荐”对你有帮助么？