利用java从docx文档中提取文本内容

最新推荐文章于 2024-07-30 14:56:57 发布

SANGF_

最新推荐文章于 2024-07-30 14:56:57 发布

阅读量5.8k

点赞数 1

分类专栏： java相关文章标签： docx poi java

本文链接：https://blog.csdn.net/sangfengcn/article/details/80726715

版权

本文介绍如何使用Java和Apache POI库来提取docx文档中的文本内容。详细介绍了文档的目录结构，其中每个文件夹按日期和来源命名，docx文件则包含被试姓名和来源信息。提供了相关代码示例，如MriReportService.java和Main.java。

摘要由CSDN通过智能技术生成

利用java从docx文档中提取文本内容

使用Apache的第三方jar包，地址为https://poi.apache.org/
docx文档内容如图：
这里写图片描述
目录结构：

每个文件夹的名称为日期加上来源，例如：20180618医院，每个docx文档的名称是被试的姓名和来源地，例如：小明-xx社区。
代码如下：
MriReportService.java

package services;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.regex.Pattern;

public class MriReportService {
   

    public static String[] findYearAndSource(File file) {
        String[] result = new String[2];
        // 日期
        String dateStr = file.getParentFile().getName();
//        System.out.println(dateStr);
        if (Pattern.compile("\\d").matcher(dateStr).find()) {
            dateStr = Pattern.compile("-").matcher(dateStr).replaceAll("");
            result[0] = dateStr.substring(0, 8);
        } else {
            result[0] = "&#