因为word不是纯文本格式的文件,所有word文件的读取异于其他纯文本文件的读取;
读取word文件的方法很多,现在介绍一种最简单的方法,用poi来读取,下面是测试代码:
package File;
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
public class ReadDoc {
/**
* @param args
*/
public static void main(String[] args) {
try {
FileInputStream in = new FileInputStream("D:/Backup/我的文档/项目说明文档.doc");
WordExtractor extractor = new WordExtractor();
System.out.println(in.available());
String str = extractor.extractText(in);
System.out.println(str);
} catch (Exception e) {
e.printStackTrace();
}
}
}