apache poi解析读取word文档段落,表格,图片

    public static void main(String[] args) throws IOException {
        // 读取Word文件, poi 4.1.2测试
        String filePath = "C:\\Users\\W10\\Downloads\\xxx.docx";
        XWPFDocument document = new XWPFDocument(Files.newInputStream(Paths.get(filePath)));

        // 获取段落和表格
        List<IBodyElement> elements = document.getBodyElements();

        for (IBodyElement element : elements) {
            if (element instanceof XWPFParagraph) {
                getParagraphText((XWPFParagraph) element);
            } else if (element instanceof XWPFTable) {
                getTableText((XWPFTable) element);
            }

        }

    }

    /**
     * 获取段落内容
     *
     * @param paragraph
     */
    private static void getParagraphText(XWPFParagraph paragraph) {
        // 获取段落中所有内容
        List<XWPFRun> runs = paragraph.getRuns();
        if (runs.size() == 0) {
            System.out.println("按了回车(新段落)");
            return;
        }
        StringBuffer runText = new StringBuffer();
        for (XWPFRun run : runs) {
            runText.append(run.text());

            // 判断当前段落是否图片
            List<XWPFPicture> pictures = run.getEmbeddedPictures();
            if (CollUtil.isNotEmpty(pictures)) {
                for (XWPFPicture picture : pictures) {
                    double width = picture.getWidth();
                    double depth = picture.getDepth();
                    XWPFPictureData pictureData = picture.getPictureData();
                    String fileName = pictureData.getFileName();
                    int pictureType = pictureData.getPictureType();
                    byte[] data = pictureData.getData();
                    Long checksum = pictureData.getChecksum();
                    System.out.println(width + ", " + fileName + ", " + pictureType + ", " + checksum);
                }
            }
        }
        if (runText.length() > 0) {
            runText.append(",对齐方式:").append(paragraph.getAlignment().name());
            System.out.println(runText);
        }
    }

    /**
     * 获取表格内容
     *
     * @param table
     */
    private static void getTableText(XWPFTable table) {
        List<XWPFTableRow> rows = table.getRows();

        for (XWPFTableRow row : rows) {
            List<XWPFTableCell> cells = row.getTableCells();
            for (XWPFTableCell cell : cells) {
                // 简单获取内容(简单方式是不能获取字体对齐方式的)
                // System.out.println(cell.getText());
                // 一个单元格可以理解为一个word文档,单元格里也可以加段落与表格
                List<XWPFParagraph> paragraphs = cell.getParagraphs();
                for (XWPFParagraph paragraph : paragraphs) {
                    getParagraphText(paragraph);
                }
            }
        }
    }

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值