【JAVA_POI】解析word文档二(doc)4.1.2版本

一、.doc和.docx两种后缀的区别

    docx文件比doc文件所占用空间更bai小。

    docx格式的文件本质du上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可dao以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。

    docx 格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。将.docx 格式的文件后缀改为ZIP后解压, 可以看到解压出来的文件夹中有word这样一个文件夹,它包含了Word文档的大部分内容。而其中的document.xml文件则包含了文档的主要文本内容。

具体来讲可以分以下几个区别:

1、运行环境不同,docx格式的文件是Office2007及以上版本保存的新型文档,而doc是Word2003以及之前版本保存的文档,如果要转化它们还需要特殊的兼容系统。

2、它们所占用的内存空间不同,docx更加节省空间。

3、它们的响应速度有所不同,docx比doc的响应速度更加快捷,并且更加方便修改文件。

4、docx格式的文件本质上是一个ZIP文件,是docx文件的容器。而doc则容纳文字格式、脚本语言及复原等资讯的文件。

二、java对word文件的解析

2.1 引入所需要的jar包

<!--解析doc文档的HWPFDocument对象在这个包里-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.1.2</version>
</dependency>
<!--解析docx文档的XWPFDocument对象在这个包里-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>4.1.2</version>
</dependency>

2.2常用方法

HWPFDocument(文档类):
xd.characterLength(); //返回文档的字符长度。
xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释。
xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
xd.getStyleSheet();

Range(范围类):
range.getParagraph(int index); //获取索引处的段落。
range.numParagraphs(); //获得Range的段落数
range.text(); //获取此Range包含的文本。

Paragraph(段落类):
paragraph.getStyleIndex(); //返回适用于此段落的样式的索引。
paragraph.text(); //获得段落包含的文本。继承自Range类。

2.4解析doc文档 DocUtils 

相较于docx文档,doc文档在解析上比较容易一些。我这里就是取出文档中的字符串,并打印出来。

package com.xuexue.firstproject.utils;

import cn.hutool.core.collection.CollUtil;
import cn.hutool.core.util.ObjectUtil;
import cn.hutool.core.util.StrUtil;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.*;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.xwpf.usermodel.*;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;

public class DocXUtils {

    public static void main(String[] args) {
        //String filePath = "F:\\work\\other\\测试docx文档解析.docx";
        String filePath = "F:\\work\\other\\测试doc文档解析.doc";
        String suffix = filePath.substring(filePath.lastIndexOf("."));
        if(".docx".equals(suffix)){
            System.out.println("文件类型是.docx");
        }
        if(".doc".equals(suffix)){
            System.out.println("文件类型是.doc");
            dealDocFile(filePath);
        }
    }

    public static void dealDocFile(String filePath){
        InputStream input = null;
        try {
            //实例化解析docx文档的对象
            input = new FileInputStream(filePath);
            HWPFDocument xd = new HWPFDocument(input);

            int length = xd.characterLength(); //返回文档的字符长度。
            System.out.println(length);
            //Range是HWPF对象模型的中心类
            Range range = xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
            for(int i = 0 ; i < range.numParagraphs(); i++){
                Paragraph paragraph = range.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

            Range range1 = xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释
            for(int i = 0 ; i < range1.numParagraphs(); i++){
                Paragraph paragraph = range1.getParagraph(i);
                //得到段落类型名称
                int styleIndex = paragraph.getStyleIndex();
                StyleSheet style_sheet = xd.getStyleSheet();
                StyleDescription style = style_sheet.getStyleDescription(styleIndex);
                String styleName = style.getName();
                System.out.println("styleName:"+styleName);

                System.out.println(paragraph.text().trim());
            }
           Range range2 = xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
            for(int i = 0 ; i < range2.numParagraphs(); i++){
                Paragraph paragraph = range2.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

            Range range3 = xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
            for(int i = 0 ; i < range3.numParagraphs(); i++){
                Paragraph paragraph = range3.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

        } catch (FileNotFoundException e) {
            e.printStackTrace();
            System.out.println("文件没有找到");
        } catch (IOException e) {
            e.printStackTrace();
            System.out.println("发生io异常");
        }
    }

}

对你有帮助就点个赞呗~~

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Java中的POI读取Word文档并将其存储到数据库中,可以按照以下步骤进行操作: 1. 添加POI库的依赖 在Maven项目中,可以在pom.xml文件中添加如下依赖: ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> ``` 2. 读取Word文档 可以使用POI库中的XWPFDocument类读取Word文档。下面是一个简单的示例代码: ```java File file = new File("path/to/word/document.docx"); FileInputStream fis = new FileInputStream(file); XWPFDocument document = new XWPFDocument(fis); ``` 3. 解析Word文档并获取需要存储的数据 可以使用POI库提供的API来解析Word文档中的内容,如获取段落、表格、图片等。根据需要存储的数据类型,可以选择不同的API进行解析。下面是一个示例代码,用于获取Word文档中的所有段落: ```java List<String> paragraphs = new ArrayList<>(); List<XWPFParagraph> paragraphList = document.getParagraphs(); for (XWPFParagraph paragraph : paragraphList) { String text = paragraph.getText(); paragraphs.add(text); } ``` 4. 将数据存储到数据库中 根据需要存储的数据类型,可以选择不同的数据库操作API进行存储。以下是一个示例代码,用于将获取到的段落存储到MySQL数据库中: ```java String url = "jdbc:mysql://localhost:3306/mydatabase"; String user = "root"; String password = "mypassword"; Connection conn = DriverManager.getConnection(url, user, password); PreparedStatement pstmt = conn.prepareStatement("INSERT INTO paragraphs (text) VALUES (?)"); for (String paragraph : paragraphs) { pstmt.setString(1, paragraph); pstmt.executeUpdate(); } ``` 注意:以上代码只是一个示例,实际应用中需要根据具体需求进行修改。同时,为了保证程序的健壮性,需要添加异常处理代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值