apache poi使用例_Java中使用Apache POI读取word文件简单示例

本文介绍了如何在Java中使用Apache POI库读取Word文件,包括需要的jar包、换行符号的区别以及读取时的注意事项。示例代码展示了读取2003版和2007版Word文档的方法。
摘要由CSDN通过智能技术生成

Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。

1.读取word 2003及word 2007需要的jar包

读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 两个 jar 包即可, 而 2007 版本(.docx)就麻烦多,我说的这个麻烦不是我们写代码的时候麻烦,是要导入的 jar 包比较的多,有如下 7 个之多:

1. openxml4j-bin-beta.jar

2. poi-3.5-beta6-20090622.jar

3. poi-ooxml-3.5-beta6-20090622.jar

4 .dom4j-1.6.1.jar

5. geronimo-stax-api_1.0_spec-1.0.jar

6. ooxml-schemas-1.0.jar

7. xmlbeans-2.3.0.jar

其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。

2.换行符号

硬换行:文件中换行,如果是键盘中使用了"enter"的换行。

软换行:文件中一行的字符数容量有限,当字符数量超过一定值时,会自动切到下行显示。

对程序来说,硬换行才是可以识别的、确定的换行,软换行与字体大小、缩进有关。

3.读取的注意事项

值得注意的是: POI 在读取不会读取 word 文件中的图片信息; 还有就是对于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。

4.读取word文本内容代码

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStream;

import org.apache.poi.POIXMLDocument;

import org.apache.poi.POIXMLTextExtractor;

import org.apache.poi.hwpf.extractor.WordExtractor;

import org.apache.poi.openxml4j.opc.OPCPackage;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

public class Test {

public static void main(String[] args) {

try {

InputStream is = new FileInputStream(new File("2003.doc"));

WordExtractor ex = new WordExtractor(is);

String text2003 = ex.getText();

System.out.println(text2003);

OPCPackage opcPackage = POIXMLDocument.openPackage("2007.docx");

POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);

String text2007 = extractor.getText();

System.out.println(text2007);

} catch (Exception e) {

e.printStackTrace();

}

}

}

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用JavaPOI读取Word文档并将其存储到数据库,可以按照以下步骤进行操作: 1. 添加POI库的依赖 在Maven项目,可以在pom.xml文件添加如下依赖: ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> ``` 2. 读取Word文档 可以使用POI的XWPFDocument类读取Word文档。下面是一个简单示例代码: ```java File file = new File("path/to/word/document.docx"); FileInputStream fis = new FileInputStream(file); XWPFDocument document = new XWPFDocument(fis); ``` 3. 解析Word文档并获取需要存储的数据 可以使用POI库提供的API来解析Word文档的内容,如获取段落、表格、图片等。根据需要存储的数据类型,可以选择不同的API进行解析。下面是一个示例代码,用于获取Word文档的所有段落: ```java List<String> paragraphs = new ArrayList<>(); List<XWPFParagraph> paragraphList = document.getParagraphs(); for (XWPFParagraph paragraph : paragraphList) { String text = paragraph.getText(); paragraphs.add(text); } ``` 4. 将数据存储到数据库 根据需要存储的数据类型,可以选择不同的数据库操作API进行存储。以下是一个示例代码,用于将获取到的段落存储到MySQL数据库: ```java String url = "jdbc:mysql://localhost:3306/mydatabase"; String user = "root"; String password = "mypassword"; Connection conn = DriverManager.getConnection(url, user, password); PreparedStatement pstmt = conn.prepareStatement("INSERT INTO paragraphs (text) VALUES (?)"); for (String paragraph : paragraphs) { pstmt.setString(1, paragraph); pstmt.executeUpdate(); } ``` 注意:以上代码只是一个示例,实际应用需要根据具体需求进行修改。同时,为了保证程序的健壮性,需要添加异常处理代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值