java poi 读取word_Java poi读取word文档(本篇只能读取text内容)

本文介绍了如何使用Java POI库来读取Word文档的文本内容,包括2003和2007两个版本的处理方式。通过引入相关依赖,创建枚举来区分文件类型,以及利用工具类获取文件头,最终实现根据文件类型正确读取内容。
摘要由CSDN通过智能技术生成

注意:word存在版本问题  分别为2003版本和2007版本(两个版本的操作是不一样的,已解决不同版本读取问题)

1.既然是使用poi  当然是先看需要什么包咯

maven导入依赖(三个依赖都是必须的)

org.apache.poi

poi

3.16

org.apache.poi

poi-scratchpad

3.16

org.apache.poi

poi-ooxml

3.16

2.创建一个枚举(也可以不创建,反正现在也就2003和2007的区别 )

public enum MicOffWordType {

MOW2003("d0cf11e"), MOW2007("504b0");

private String type;

public String getType() {

return type;

}

public void setType(String type) {

this.type = type;

}

private MicOffWordType(String type) {

this.type = type;

}

/**

* 根据文件头获取文件类型

*

* @param value

* @return

*/

public static String getTypeByValue(String value) {

for (MicOffWordType mow : values()) {

if (value.toUpperCase().startsWith(mow.getType().toUpperCase())) {

return mow.name();

}

}

return null;

}

}

3.获取文件头工具类

/**

*

* @author thj

*

*/

public class FileHandle {

/**

* 得到文件头

*

* @param file

* 文件

* @return 文件头

* @throws IOException

*/

public static String getFileHead(File file) {

byte[] b = new byte[28];

InputStream inputStream = null;

try {

inputStream = new FileInputStream(file);

inputStream.read(b, 0, 28);

} catch (IOException e) {

} finally {

if (inputStream != null) {

try {

inputStream.close();

} catch (IOException e) {

}

}

}

return bytesToHexString(b);

}

/**

* 将文件头转换成16进制字符串

*

* @param 原生byte

* @return 16进制字符串

*/

private static String bytesToHexString(byte[] src) {

StringBuilder stringBuilder = new StringBuilder();

if (src == null || src.length <= 0) {

return null;

}

for (int i = 0; i < src.length; i++) {

int v = src[i] & 0xFF;

String hv = Integer.toHexString(v);

if (hv.length() < 2) {

stringBuilder.append(0);

}

stringBuilder.append(hv);

}

return stringBuilder.toString();

}

}

4.正餐来咯,获取word内的内容

/**

*

* @author thj

*

*/

public class MicOffWordUtil {

/**

* 根据word文件路径获取文件内的内容

*

* @param filePath

* @return 如果解析失败则返回null

*/

@SuppressWarnings("resource")

public static String getContent(String filePath) {

// 路径必传

if (null == filePath || filePath.replaceAll(" ", "").length() == 0) {

return null;

}

// 获取文件格式

// 1.获取文件头

File f = new File(filePath);

String fh = FileHandle.getFileHead(f);

// 判断文件类型

String wt = MicOffWordType.getTypeByValue(fh);

if (null == wt) {

return null;

}

try {

// 判断是否是2003格式的word

if (wt.equals(MicOffWordType.MOW2003.toString())) {// 判断是否是2003格式的word

System.out.println("2003");

WordExtractor ex = new WordExtractor(new FileInputStream(f));

String text2003 = ex.getText();

return text2003;

} else if (wt.equals(MicOffWordType.MOW2007.toString())) {// 判断是否是2007格式的word

System.out.println("2007");

OPCPackage op = POIXMLDocument.openPackage(filePath);

POIXMLTextExtractor pte = new XWPFWordExtractor(op);

String text2007 = pte.getText();

return text2007;

}

} catch (Exception e) {

return null;

}

return null;

}

/**

* 根据word文件获取文件内的内容

*

* @param file

* word文件

* @return

*/

@SuppressWarnings("resource")

public static String getContent(File file) {

// 判断文件是否存在

if (null == file || !file.exists()) {

return null;

}

// 获取文件格式

// 1.获取文件头

String fh = FileHandle.getFileHead(file);

// 判断文件类型

String wt = MicOffWordType.getTypeByValue(fh);

if (null == wt) {

return null;

}

try {

// 判断是否是2003格式的word

if (wt.equals(MicOffWordType.MOW2003.toString())) {// 判断是否是2003格式的word

System.out.println("2003");

WordExtractor ex = new WordExtractor(new FileInputStream(file));

String text2003 = ex.getText();

return text2003;

} else if (wt.equals(MicOffWordType.MOW2007.toString())) {// 判断是否是2007格式的word

System.out.println("2007");

OPCPackage op = OPCPackage.open(file);

POIXMLTextExtractor pte = new XWPFWordExtractor(op);

String text2007 = pte.getText();

return text2007;

}

} catch (Exception e) {

return null;

}

return null;

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Java中的POI读取Word文档并将其存储到数据库中,可以按照以下步骤进行操作: 1. 添加POI库的依赖 在Maven项目中,可以在pom.xml文件中添加如下依赖: ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> ``` 2. 读取Word文档 可以使用POI库中的XWPFDocument类读取Word文档。下面是一个简单的示例代码: ```java File file = new File("path/to/word/document.docx"); FileInputStream fis = new FileInputStream(file); XWPFDocument document = new XWPFDocument(fis); ``` 3. 解析Word文档并获取需要存储的数据 可以使用POI库提供的API来解析Word文档中的内容,如获取段落、表格、图片等。根据需要存储的数据类型,可以选择不同的API进行解析。下面是一个示例代码,用于获取Word文档中的所有段落: ```java List<String> paragraphs = new ArrayList<>(); List<XWPFParagraph> paragraphList = document.getParagraphs(); for (XWPFParagraph paragraph : paragraphList) { String text = paragraph.getText(); paragraphs.add(text); } ``` 4. 将数据存储到数据库中 根据需要存储的数据类型,可以选择不同的数据库操作API进行存储。以下是一个示例代码,用于将获取到的段落存储到MySQL数据库中: ```java String url = "jdbc:mysql://localhost:3306/mydatabase"; String user = "root"; String password = "mypassword"; Connection conn = DriverManager.getConnection(url, user, password); PreparedStatement pstmt = conn.prepareStatement("INSERT INTO paragraphs (text) VALUES (?)"); for (String paragraph : paragraphs) { pstmt.setString(1, paragraph); pstmt.executeUpdate(); } ``` 注意:以上代码只是一个示例,实际应用中需要根据具体需求进行修改。同时,为了保证程序的健壮性,需要添加异常处理代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值