背景:最近接到一个解析doc后缀的word文件的需求,结果报错提示是rtf类型文件,无法解析。接下来,我将解析rtf
文件的代码分享出来。
1. 解析正常.doc后缀文件
//解析正常.doc后缀文件
XWPFDocument ex = new XWPFDocument(file.getInputStream());
POIXMLTextExtractor extractor = new XWPFWordExtractor(ex);
String result = extractor.getText();
extractor.close();
2. 航司提供的文件后缀是doc,格式是rtf类型的
//航司提供的文件后缀是doc,格式是rtf类型的
RTFEditorKit rtf = new RTFEditorKit();
DefaultStyledDocument styledDoc = new DefaultStyledDocument();
InputStream inputStream = file.getInputStream();
rtf.read(inputStream, styledDoc, 0);
String text = styledDoc.getText(0, styledDoc.getLength());
String result = StringToRtfUtil.chineseStrTortf(text);