一、快速入门
1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。
使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等):
(1)若文档为纯文本,如txt,html,java文件等,则二者对于文件内容的提取基本无差别,都可将内容呈现出来。
(2)若文档为富文本,如office,pdf等,使用java.io直接读取内容会得到一串乱码,而需要通过种种工具去提取正文内容,如PDFBox提取PDF文件,POI提取office文件等。
TIka已将各种工具作了统一封装,形成统一的API,用于提取文本正文。
但注意:解释文本
上述步骤只是将正文内容提取了出来,如将word文档、Html文档等的正文提取出来,但未对文档正文的内容进行解释,此时需要用到其它的工具如:
(1)DOM4J用于提取XML正文中的内容,如某个元素或者属性的值。
(2)HtmlPaser用于提取HTML正文中的内容,也是提取无素或者属性的值,比如提取文中的超链接等。
Tika是否已经完成此功能的封装还不确认,以后再研究。
2、使用GUI界面解释文本
(1)进入Tika所有的目录,运行以下命令:
java -jar "tika-app-1.5 (1).jar" -g
(2)Tika的图形界面被打开,然后找开File-openURL:
(3)点击确认后,即返回解释结果
默认情况下显示的是文本的元信息