java 读取 doc_java使用poi读取doc和docx文件的实现示例

本文介绍了如何使用Java的POI库读取doc和docx文件,详细展示了导入依赖、读取doc及docx文件的代码示例。通过HWPFDocument和XWPFDocument类,分别处理不同格式的文件,从而正确地以编码格式获取文件内容。
摘要由CSDN通过智能技术生成

这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。

我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。

于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。

在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。

一、导包:

doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:

92dc42440feaefa3bf7226042bc088d4.png

docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:

ed55bf9ea43d059c8d4464f4780c18c0.png

我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:

org.apache.poi

poi-ooxml

3.8

org.apache.poi

poi-scratchpad

3.8

Java可以使用Apache POI库来读取docdocx文件内容和图片,并且可以区分不同的段落。下面是一个简单的示例代码,可以读取Word文档中的所有内容和图片,并将它们按照段落进行分组: ```java import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.usermodel.*; import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.InputStream; import java.util.ArrayList; import java.util.List; public class ReadWord { public static void main(String[] args) throws Exception { // 读取Word文档 InputStream is = new FileInputStream("test.docx"); XWPFDocument xwpfDocument = new XWPFDocument(is); // 获取文档中的所有段落 List<XWPFParagraph> paragraphs = xwpfDocument.getParagraphs(); // 将段落按照页码分组 List<List<XWPFParagraph>> pages = groupParagraphsByPage(paragraphs); // 处理每一页的内容 for (int i = 0; i < pages.size(); i++) { List<XWPFParagraph> page = pages.get(i); System.out.println("Page " + (i + 1)); for (XWPFParagraph paragraph : page) { // 打印文本内容 System.out.println(paragraph.getText()); // 获取段落中的所有图片 List<XWPFPicture> pictures = paragraph.getRuns().stream() .filter(run -> run instanceof XWPFPicture) .map(run -> (XWPFPicture) run) .toList(); // 处理图片数据 for (XWPFPicture picture : pictures) { byte[] imageData = picture.getPictureData().getData(); // 处理图片数据 } } } // 关闭文档 xwpfDocument.close(); } // 将段落按照页码分组 private static List<List<XWPFParagraph>> groupParagraphsByPage(List<XWPFParagraph> paragraphs) { List<List<XWPFParagraph>> pages = new ArrayList<>(); int pageIndex = -1; for (XWPFParagraph paragraph : paragraphs) { int newPageIndex = paragraph.getDocument().getPosOfParagraph(paragraph); if (newPageIndex != pageIndex) { pageIndex = newPageIndex; pages.add(new ArrayList<>()); } pages.get(pages.size() - 1).add(paragraph); } return pages; } } ``` 这个例子中,我们使用了Apache POI的XWPFDocument类来加载docx文档,并使用getParagraphs()方法获取文档中的所有段落。我们可以使用getText()方法获取段落中的文本内容。如果段落中包含图片,我们可以使用getRuns()方法获取所有的Run对象,然后过滤出所有的XWPFPicture对象,并使用getPictureData()方法获取图片的二进制数据。最后,我们可以处理这些图片数据,例如将它们保存到本地磁盘或者上传到服务器。 需要注意的是,对于doc文件,我们需要使用HWPFDocument类来加载文档,并使用getRange()方法获取文档的范围。另外,对于大型文档,可能需要考虑使用分页加载等技术来提高性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值