apache poi解析读取word文档段落,表格,图片

    public static void main(String[] args) throws IOException {
        // 读取Word文件, poi 4.1.2测试
        String filePath = "C:\\Users\\W10\\Downloads\\xxx.docx";
        XWPFDocument document = new XWPFDocument(Files.newInputStream(Paths.get(filePath)));

        // 获取段落和表格
        List<IBodyElement> elements = document.getBodyElements();

        for (IBodyElement element : elements) {
            if (element instanceof XWPFParagraph) {
                getParagraphText((XWPFParagraph) element);
            } else if (element instanceof XWPFTable) {
                getTableText((XWPFTable) element);
            }

        }

    }

    /**
     * 获取段落内容
     *
     * @param paragraph
     */
    private static void getParagraphText(XWPFParagraph paragraph) {
        // 获取段落中所有内容
        List<XWPFRun> runs = paragraph.getRuns();
        if (runs.size() == 0) {
            System.out.println("按了回车(新段落)");
            return;
        }
        StringBuffer runText = new StringBuffer();
        for (XWPFRun run : runs) {
            runText.append(run.text());

            // 判断当前段落是否图片
            List<XWPFPicture> pictures = run.getEmbeddedPictures();
            if (CollUtil.isNotEmpty(pictures)) {
                for (XWPFPicture picture : pictures) {
                    double width = picture.getWidth();
                    double depth = picture.getDepth();
                    XWPFPictureData pictureData = picture.getPictureData();
                    String fileName = pictureData.getFileName();
                    int pictureType = pictureData.getPictureType();
                    byte[] data = pictureData.getData();
                    Long checksum = pictureData.getChecksum();
                    System.out.println(width + ", " + fileName + ", " + pictureType + ", " + checksum);
                }
            }
        }
        if (runText.length() > 0) {
            runText.append(",对齐方式:").append(paragraph.getAlignment().name());
            System.out.println(runText);
        }
    }

    /**
     * 获取表格内容
     *
     * @param table
     */
    private static void getTableText(XWPFTable table) {
        List<XWPFTableRow> rows = table.getRows();

        for (XWPFTableRow row : rows) {
            List<XWPFTableCell> cells = row.getTableCells();
            for (XWPFTableCell cell : cells) {
                // 简单获取内容(简单方式是不能获取字体对齐方式的)
                // System.out.println(cell.getText());
                // 一个单元格可以理解为一个word文档,单元格里也可以加段落与表格
                List<XWPFParagraph> paragraphs = cell.getParagraphs();
                for (XWPFParagraph paragraph : paragraphs) {
                    getParagraphText(paragraph);
                }
            }
        }
    }

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非常抱歉,我之前给出的代码有误。在Apache POI库中,获取Word文档表格中空白列的字体大小可以使用`XWPFTableCell`类的`getParagraphs()`方法和`XWPFParagraph`类的`getRuns()`方法来获取段落和运行对象,然后通过运行对象的`getFontSize()`方法获取字体大小。以下是修改后的示例代码: ```java import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.IOException; public class WordTableFormatReader { public static void main(String[] args) { try { // 读取Word文档 FileInputStream fileInputStream = new FileInputStream("input.docx"); XWPFDocument document = new XWPFDocument(fileInputStream); fileInputStream.close(); // 获取第一个表格 XWPFTable table = document.getTables().get(0); // 假设文档中只有一个表格 // 获取表格列数 int columnCount = table.getRow(0).getTableCells().size(); // 遍历表格列的格式 for (int columnIndex = 0; columnIndex < columnCount; columnIndex++) { // 获取第一行的单元格 XWPFTableCell cell = table.getRow(0).getCell(columnIndex); // 检查单元格是否为空白列 if (cell.getText().trim().isEmpty()) { // 获取单元格的段落 XWPFParagraph paragraph = cell.getParagraphs().get(0); // 获取段落的运行对象 XWPFRun run = paragraph.getRuns().get(0); // 获取运行对象的字体大小 int fontSize = run.getFontSize(); System.out.println("空白列 " + (columnIndex + 1) + " 的字体大小: " + fontSize); } } System.out.println("空白列格式读取成功!"); } catch (IOException e) { e.printStackTrace(); } } } ``` 在这个示例中,我们首先使用`FileInputStream`来读取名为"input.docx"的Word文档,然后使用`XWPFDocument`类加载文档内容。 接下来,我们使用`document.getTables().get(0)`获取文档中的第一个表格。如果您的文档中有多个表格,请根据实际情况选择要读取格式的表格。 然后,我们使用`table.getRow(0).getTableCells().size()`获取表格的列数。这里假设第一行中的单元格数与其他行相同。 接下来,我们使用一个循环来遍历每一列,并检查单元格是否为空白列。我们使用`cell.getText().trim().isEmpty()`方法来检查单元格的文本是否为空白或只包含空格。 如果单元格为空白列,我们获取该单元格的段落和运行对象,然后使用运行对象的`getFontSize()`方法获取字体大小。 请确保在代码中引入了正确的POI库以及其他所需的依赖项,并且在代码中导入了正确的类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值