java poi 读word (doc,docx)表格

毛利小伍琪

已于 2022-04-09 09:00:59 修改

阅读量3.6k

点赞数 1

文章标签： java

于 2022-04-09 08:52:32 首次发布

本文链接：https://blog.csdn.net/weixin_42093813/article/details/124055024

版权

项目场景：

最近公司将线下流程线上话,提供上传模板的功能,很多表格都是在word里面生成的,找了很多资料处理docx 跟doc 最后docx 勉强可以用,doc还是不完善,最后只能沟通限制上传docx

先直接上代码

这里我以word里的第一个表格为例是一个四列的表格

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>4.1.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>4.1.0</version>
        </dependency>
        <dependency>
            <groupId>cn.afterturn</groupId>
            <artifactId>easypoi-base</artifactId>
            <version>4.1.0</version>
        </dependency>
<!--        <dependency>-->
<!--            <groupId>cn.afterturn</groupId>-->
<!--            <artifactId>easypoi-web</artifactId>-->
<!--            <version>4.1.0</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>cn.afterturn</groupId>-->
<!--            <artifactId>easypoi-annotation</artifactId>-->
<!--            <version>4.1.0</version>-->
<!--        </dependency>-->

package com.zt.haide.util.easyWord;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.*;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xwpf.usermodel.*;
import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTTcPr;
import org.openxmlformats.schemas.wordprocessingml.x2006.main.STMerge;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.InputStream;
import java.math.BigInteger;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

public class ReadWordTable {
    public static void main(String[] args) throws FileNotFoundException {
        String path = "C:\\Users\\Administrator\\Desktop\\lzq1.doc";
        File file = new File(path);
        InputStream is = new FileInputStream(file);
        List<HashMap> lists = readWord(is,path);
        System.out.println(lists);
//        lists.forEach(map->{
//            System.out.println("-------");
//          map.forEach((Object key,Object value)-> System.out.println("key:"+key+"--value:"+value));
//        });
    }


    /**
     * 读word的表格
     * @param path
     * @return
     */
    public static List<HashMap> readWord(InputStream is,String path){
        List<HashMap> list = new ArrayList<>();
        try {
            HashMap<String, String> map = new HashMap<>();
            map.put("str1", "");
            map.put("str2", "");
            map.put("str3", "");
            map.put("str4", "");

            if(path.toLowerCase().endsWith("docx")) {
            XWPFDocument docx = new XWPFDocument(is);
                List<XWPFTable> tables = docx.getTables();
                //遍历word内的表格
                for (int i = 0; i < 1; i++) {
                    XWPFTable table = tables.get(i);
                    //读取每一行数据
                    for (int j = 0; j < table.getNumberOfRows(); j++) {
                        if (j >= 1) {
                            int  storeCol=0;//列合并单元格,不统计被合并的单元格,被合并的单元格 在此进行累计记录
                            HashMap<Object, Object> rowMap = new HashMap<>();
                            //读取表格的某一行的所有数据
                            XWPFTableRow row = table.getRow(j);
                            //读取每一列的数据
                            List<XWPFTableCell> cells = row.getTableCells();
                            String text = "";
                            for (int k = 0; k +storeCol< 4; k++) {
                                XWPFTableCell cell = cells.get(k);

                                List<XWPFParagraph> paragraphs1 = cell.getParagraphs();
                                text = "";
                                if (paragraphs1.size() <= 1) {
                                    //一格一条数据
                                    text = cell.getText();
                                } else if (paragraphs1.size() > 1) {
                                    //一格多条数据
                                    //表格内含有多个人的时候处理
                                    text = "";
                                    for (int h = 0; h < paragraphs1.size(); h++) {
                                        XWPFParagraph xwpfParagraph = paragraphs1.get(h);
                                        List<XWPFRun> runs = xwpfParagraph.getRuns();
                                        if (runs.size() > 1) {
                                            for (int b = 0; b < runs.size(); b++) {
                                                XWPFRun xwpfRun = runs.get(b);
                                                text += xwpfRun.getText(0);
                                            }
                                        } else {
                                            for (XWPFRun run : runs) {
                                                text += run.getText(0);
                                            }
                                        }
                                    }
                                }


                                CTTcPr tcPr = cell.getCTTc().getTcPr();

                                if (("").equals(text)) {
                                    if (tcPr.isSetVMerge()){
                                        //行合并单元格
                                        String s = map.get("str" + (k+storeCol));
                                        text = s;
                                    }
                                }

                                map.put("str" + (k+storeCol), text);
                                rowMap.put("var"+(k+storeCol),text);
                                if (tcPr.isSetGridSpan()){
                                    //列合并单元格
                                    BigInteger val = tcPr.getGridSpan().getVal();//合并数
                                    int colspan = val.intValue();

                                    rowMap.put("colspan"+(k+storeCol),colspan);
                                    int  stop=k+colspan-1;
                                    for (int p=k+1;p<=stop;p++){
                                        map.put("str" + (p+storeCol), text);
                                        rowMap.put("var"+(p+storeCol),text);
                                        rowMap.put("colspan"+(p+storeCol),0);
                                    }
                                    storeCol=storeCol+colspan-1;
                                }else {
                                    rowMap.put("colspan"+(k+storeCol),1);
                                }

                            }
                            list.add(rowMap);
                        }
                    }
                }
            }else {
//
                // 处理doc格式 即office2003版本
                POIFSFileSystem pfs = new POIFSFileSystem(is);
                HWPFDocument hwpf = new HWPFDocument(pfs);
                Range range = hwpf.getRange();//得到文档的读取范围
                TableIterator it = new TableIterator(range);
                // 迭代文档中的表格
                // 如果有多个表格只读取需要的一个 set是设置需要读取的第几个表格，total是文件中表格的总数
                int set = 1, total = 4;
                int num = set;
                for (int i = 0; i < set - 1; i++) {
                    it.hasNext();
                    it.next();
                }
                while (it.hasNext()) {
                    Table tb = (Table) it.next();
                    //迭代行，默认从0开始,可以依据需要设置i的值,改变起始行数，也可设置读取到那行，只需修改循环的判断条件即可
                    for (int i = 1; i < tb.numRows(); i++) {
                        ArrayList<String> strings = new ArrayList<>();
                        TableRow tr = tb.getRow(i);
                        //迭代列，默认从0开始
                        for (int j = 0; j < 4; j++) {
                            TableCell td = tr.getCell(j);//取得单元格

                            //取得单元格的内容
                            String text="";
                            for (int k = 0; k < td.numParagraphs(); k++) {
                                Paragraph para = td.getParagraph(k);
                                String s = para.text();
                                //去除后面的特殊符号
                                if (null != s && !"".equals(s)) {
                                    s = s.substring(0, s.length() - 1);
                                }
                                text+=s;
                            }
//                            if (("").equals(text)) {
//                                String s = map.get("str" + j);
//                                text = s;
//                            }
//                            if (("十").equals(text)){
//                                System.out.println("===========");
//                            }
                            System.out.println(td.isMerged());
                            System.out.println(td.isFirstMerged());
                            System.out.println("------"+text);
                            System.out.println(td.isFirstVerticallyMerged());
                            System.out.println(td.isVerticallyMerged());

                            map.put("str" + j, text);
                            strings.add(text);
                        }
//                        list.add(strings);
                    }
                    // 过滤多余的表格
                    while (num < total) {
                        it.hasNext();
                        it.next();
                        num += 1;
                    }

                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return list;
    }

    /**
     * 获取文档中备注(读取Word段落的内容)
     * @param paragraphs
     * @return
     */
    public static String getNotes(List<XWPFParagraph> paragraphs){
        XWPFParagraph para = paragraphs.get(3);
        String notes = "";
        List<XWPFRun> runList = para.getRuns();
        if (runList.size() > 0) {
            for (XWPFRun r : runList) {
                notes += r.getText(0);
            }
            System.out.println("备注*：" + notes);
        }else {
            System.out.println("备注*：" + notes);
        }
        return notes;
    }
}

docx

在网上搜两个的区别
对于开发来说最重要的区别就是:
docx格式与doc格式都是Word文本格式，的区别显著的一点就是体积大小的不同。docx格式其实就是一个zip文件，我们可以拿winrar打开docx文件，得到一堆的文件。在docx文件里面可以找到各种配置文件，文本文件和媒体文件。其原理就是相当于用两个文本文档，一个用来放文本信息，另一个用来配置个里面的格式，比如字体，大小等。这样用两个文本文件就能实现doc格式类似的功能，所以很节省体积；

看到这我们可以尝试简单处理一下docx

做一个docx 的表格合并一下单元格
在这里插入图片描述

然后将文件.docx 修改为zip
解压,得到一个文件夹
在word里面有个 document.xml 打开
在这里插入图片描述
仔细看一遍再回过头看源码,就会理解 tcpr vertAlign vMerge 这些是什么意思 tcpr就是单元格里的一些属性
行合并单元格

对应的

这里他实际还是两个单元格,第一个有vMerge val 是restart
在代码里

  CTTcPr tcPr = cell.getCTTc().getTcPr();
  tcPr.isSetVMerge()=true
    STMerge.Enum val = tcPr.getVMerge().getVal();//这里就是restart

而第二个隐藏的单元格内容是空字符串
tcPr.getVMerge().getVal() =continue
同理做一下列的合并

打开document.xml
可以发现
在这里插入图片描述
在源码里发现了

剩下的就豁然开朗了
有点不一样的是

  BigInteger val = tcPr.getGridSpan().getVal();//列合并单元格val 直接给出了 合并单元格的数量

doc

doc 我也尝试了很多方法,编码方式不同 doc不能像docx一样解压,
根据docx 的经验去看了 tableCell
在这里插入图片描述

第二个框明显是一些样式居中 border 边框的样式
在第一个框里让我兴奋的是
isFirstMerged()
isMerged()
isFirstVerticallyMerged()
isVerticallyMerged()

但是经过尝试之后最后两个标记的是行的合并,列的合并前两个并没有用,而且合并的两个单元格只当做了一个,第二个直接跳过了,没有任何规律可寻,也是很是苦恼最后沟通放弃doc
如果有懂的能看出来我哪里不对的小伙伴欢迎指导一下

毛利小伍琪

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
2
评论
java poi 读word (doc,docx)表格

项目场景：最近公司将线下流程线上话,提供上传模板的功能,很多表格都是在word里面生成的,找了很多资料处理docx 跟doc 最后docx 勉强可以用,doc还是不完善,最后只能沟通限制上传docx先直接上代码这里我以word里的第一个表格为例是一个四列的表格 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi
复制链接

扫一扫