附注:本文使用的jar包是tm-extractors-0.4的jar包(麻烦自己自行搜索并下载),地址稍后再补上来
/**
* 读取隐私协议文档内容
*
* @return
*/
private String showContent() {
String content = "";
try {
AssetManager manager = getAssets();
InputStream inputStream = manager.open("help.doc");
WordExtractor extractor = new WordExtractor();
content = extractor.extractText(inputStream);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
return content;
}
但是本地使用的是WPS,而非Microsoft Office,虽然都是doc格式,但是程序运行的时候,会报错:
org.textmining.text.extraction.FastSavedException: Fast-saved files are unsupported at this time
解决方法:使用office打开文档,然后保存下,关闭,即可
(这个问题有点坑)
**************************这里以2007版以前的word文档 作为分割线*********************************************
第二部;使用POI读取Word文档
(待补充)