用到的java PDF类库是:PDFBox,下载后其中lib和externa文件夹下的jar文件需要引入项目
解析PDF思想:
1:PDDocument加载PDF文件
2:PDFTextScripper提取其中文本(getText()),返回一个String
2:PDFTextScripper将PDF文本写入一个输出流(write(PDDocument, Writer)),无返回
Word
对MS_office的word,excel可以使用POI类库,提取纯文本内容。
1:创建输入流读取DOC文本 FileInputStream in
2:创建WordExtrator WordExtrator ex=new WordExtrator()
3:提取文本 String text=ex.extractText(in)
Excel
POI类库可以处理Excel,Java Excel也是应用较多的类库。
下载JExcel后,提取内容步骤:
1:打开Excel文件 WorkBook
2:获得表sheet数量
3:遍历各个表