本文的解析文本,是指:
- 提取所有文字信息
- 将文本拆分成一行一行的文字(字符串)
- 去除空行
需要的jar包
程序
注意事项
- doc格式和docx格式的解析方法不一样
- wordText(也就是整个word文档的文字字符串)按行拆分时
String[] lineArr = wordText.split("\r\n|\n\n|\n");
,你看我这里面写了\r\n
、\n\n
、\n
三种拆分形式,因为我拆分的时候,发现doc个换行字符是\r\n
,docx的普通换行字符是\n\n
,而docx中从表格里解析出来的文字的换行字符是\n
。所以可能换行字符会不一样,各位自己做的时候可以debug看换行字符是什么。
/**
* 从word文件中解析出文字数据
* @param file 要解析的word文件
* @return 文档中的行数据数组
*/
private String[] parseAllTextFromWordFile(File file) {
//获取word文档中的全部文字数据
String wordText = "";
String fileName = file.getName();
String suffix = fileName<