POI读取doc,docx文档内容

POI读取doc,docx文档内容

1.pom依赖:

 <dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi</artifactId>
     <version>4.1.2</version>
</dependency>
<!--处理2007版本-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>4.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml-schemas</artifactId>
    <version>4.1.2</version>
</dependency>

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi-scratchpad -->
<!--处理老版本-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.1.2</version>
</dependency>
2.由于人工创建的文档各式各样,有可能doc文件另存为docx,docx另存为doc,虽然文件后缀变了,但是其原有的格式并未改变,所以需要做兼容处理。见代码:
@Slf4j
public class FileUtils {
    /**
     * 解析docx
     *
     * @param multipartFile
     * @return
     */
    public static String getDocxWord(MultipartFile multipartFile) {
        String docWord = null;
//        POIXMLTextExtractor extractor = (POIXMLTextExtractor) ExtractorFactory.createExtractor(bis);
//        OPCPackage aPackage = extractor.getPackage();
        try {
//            XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(path));
            XWPFDocument read = read(multipartFile);
            if (read==null){
                return null;
            }
            XWPFWordExtractor docx = new XWPFWordExtractor(read);
            //提取.docx正文文本
            docWord = docx.getText().trim();
            log.info("解析doc文档成功:{}", docWord);
            docx.close();
        }  catch (NullPointerException e) {
            return null;
        }catch (IOException e){
            e.printStackTrace();
        }


        return docWord;
    }

    /**
     * 解析doc
     *
     * @param multipartFile
     * @return
     */
    public static String getDocWord( MultipartFile multipartFile) {
        String docxWord = "";
        WordExtractor wordExtractor = null;
        InputStream is =null;
        try {
            //解析doc文件
            is = multipartFile.getInputStream();
            try {
                wordExtractor = new WordExtractor(is);
                docxWord = wordExtractor.getText().trim();
                log.info("解析docx文档成功:{}", docxWord);
            } catch (IllegalArgumentException e) {
                docxWord=getDocxWord(multipartFile);
            }finally {
                if (wordExtractor !=null){
                    wordExtractor.close();
                }
               if (is!=null){
                   is.close();
               }

            }

        } catch (IOException e) {
            log.error("解析docx文档失败", e);
        }

        return docxWord;
    }


    /**
     * 读取文件内容
     *
     * @param multipartFile
     * @return
     */
    public static XWPFDocument read(MultipartFile multipartFile) {
        // 判断文件是否为空
        InputStream is = null;
        if (!multipartFile.isEmpty()) {
            try {
                is = multipartFile.getInputStream();
                XWPFDocument document = null;
                try {
                    document = new XWPFDocument(is);
                } catch (NotOfficeXmlFileException e) {
                    document=null;
                }
                return document;
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }




    public static void main(String[] args) throws Exception {

        File file = new File("C:\\Users\\dcw\\Desktop\\2.doc");

        MultipartFile multipartFile = fileToMultipartFile(file);

        System.out.println(getDocWord(multipartFile));


    }
}

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值