Java使用POI解析Word文本【.doc和.docx】

本文介绍如何使用Java的POI库来解析Word文档(.doc和.docx),提取文字信息并进行行处理,包括去除空行。注意不同格式的Word文档换行字符可能不同,需要在解析时特别关注。
摘要由CSDN通过智能技术生成

本文的解析文本,是指:

  1. 提取所有文字信息
  2. 将文本拆分成一行一行的文字(字符串)
  3. 去除空行

需要的jar包

在这里插入图片描述

程序

注意事项

  1. doc格式和docx格式的解析方法不一样
  2. wordText(也就是整个word文档的文字字符串)按行拆分时String[] lineArr = wordText.split("\r\n|\n\n|\n");,你看我这里面写了\r\n\n\n\n三种拆分形式,因为我拆分的时候,发现doc个换行字符是\r\n,docx的普通换行字符是\n\n,而docx中从表格里解析出来的文字的换行字符是\n所以可能换行字符会不一样,各位自己做的时候可以debug看换行字符是什么
/**
 * 从word文件中解析出文字数据
 * @param file 要解析的word文件
 * @return 文档中的行数据数组
 */
private String[] parseAllTextFromWordFile(File file) {
   
    //获取word文档中的全部文字数据
    String wordText = "";
    String fileName = file.getName();
    String suffix = fileName<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值