一、.doc和.docx两种后缀的区别
docx文件比doc文件所占用空间更bai小。
docx格式的文件本质du上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可dao以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。
docx 格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。将.docx 格式的文件后缀改为ZIP后解压, 可以看到解压出来的文件夹中有word这样一个文件夹,它包含了Word文档的大部分内容。而其中的document.xml文件则包含了文档的主要文本内容。
具体来讲可以分以下几个区别:
1、运行环境不同,docx格式的文件是Office2007及以上版本保存的新型文档,而doc是Word2003以及之前版本保存的文档,如果要转化它们还需要特殊的兼容系统。
2、它们所占用的内存空间不同,docx更加节省空间。
3、它们的响应速度有所不同,docx比doc的响应速度更加快捷,并且更加方便修改文件。
4、docx格式的文件本质上是一个ZIP文件,是docx文件的容器。而doc则容纳文字格式、脚本语言及复原等资讯的文件。
二、java对word文件的解析
2.1 引入所需要的jar包
<!--解析doc文档的HWPFDocument对象在这个包里-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-scratchpad</artifactId>
<version>4.1.2</version>
</dependency>
<!--解析docx文档的XWPFDocument对象在这个包里-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>4.1.2</version>
</dependency>
2.2常用方法
HWPFDocument(文档类):
xd.characterLength(); //返回文档的字符长度。
xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释。
xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
xd.getStyleSheet();
Range(范围类):
range.getParagraph(int index); //获取索引处的段落。
range.numParagraphs(); //获得Range的段落数
range.text(); //获取此Range包含的文本。
Paragraph(段落类):
paragraph.getStyleIndex(); //返回适用于此段落的样式的索引。
paragraph.text(); //获得段落包含的文本。继承自Range类。
2.4解析doc文档 DocUtils
相较于docx文档,doc文档在解析上比较容易一些。我这里就是取出文档中的字符串,并打印出来。
package com.xuexue.firstproject.utils;
import cn.hutool.core.collection.CollUtil;
import cn.hutool.core.util.ObjectUtil;
import cn.hutool.core.util.StrUtil;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.*;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.xwpf.usermodel.*;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;
public class DocXUtils {
public static void main(String[] args) {
//String filePath = "F:\\work\\other\\测试docx文档解析.docx";
String filePath = "F:\\work\\other\\测试doc文档解析.doc";
String suffix = filePath.substring(filePath.lastIndexOf("."));
if(".docx".equals(suffix)){
System.out.println("文件类型是.docx");
}
if(".doc".equals(suffix)){
System.out.println("文件类型是.doc");
dealDocFile(filePath);
}
}
public static void dealDocFile(String filePath){
InputStream input = null;
try {
//实例化解析docx文档的对象
input = new FileInputStream(filePath);
HWPFDocument xd = new HWPFDocument(input);
int length = xd.characterLength(); //返回文档的字符长度。
System.out.println(length);
//Range是HWPF对象模型的中心类
Range range = xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
for(int i = 0 ; i < range.numParagraphs(); i++){
Paragraph paragraph = range.getParagraph(i);
System.out.println(paragraph.text().trim());
}
Range range1 = xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释
for(int i = 0 ; i < range1.numParagraphs(); i++){
Paragraph paragraph = range1.getParagraph(i);
//得到段落类型名称
int styleIndex = paragraph.getStyleIndex();
StyleSheet style_sheet = xd.getStyleSheet();
StyleDescription style = style_sheet.getStyleDescription(styleIndex);
String styleName = style.getName();
System.out.println("styleName:"+styleName);
System.out.println(paragraph.text().trim());
}
Range range2 = xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
for(int i = 0 ; i < range2.numParagraphs(); i++){
Paragraph paragraph = range2.getParagraph(i);
System.out.println(paragraph.text().trim());
}
Range range3 = xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
for(int i = 0 ; i < range3.numParagraphs(); i++){
Paragraph paragraph = range3.getParagraph(i);
System.out.println(paragraph.text().trim());
}
} catch (FileNotFoundException e) {
e.printStackTrace();
System.out.println("文件没有找到");
} catch (IOException e) {
e.printStackTrace();
System.out.println("发生io异常");
}
}
}
对你有帮助就点个赞呗~~