一、TIKA是什么
它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。
二、TIKA的作用
1.能识别文档类型、编码、语言、其他属性
2.抽取文档内容
三、获取TIKA
1.得到TIKA:http://tika.apache.org/download.html
要是不想不想重新打包项目,可以直接下载:tika-app-1.3.jar
2.得到MAVEN:http://maven.apache.org/download.cgi
3.设置JAVA_HOME变量
4.用mven来编译项目了。
下面用的是我的解压路径。在tika的目录中打开cmd,运行maven
最后会在每个项目中生成target目录,里面有jar文件
四、TIKA的简单用法
Tika tika=new Tika();
//System.out.println(tika.parseToString(new URL("http://www.taobao.com")));
// System.out.println(tika.parseToString(new File("TikaSample.class")));
String[] tt=new String[]{"E:\\lucene\\test_tika\\1.class",
"E:\\lucene\\test_tika\\2.txt",
"E:\\lucene\\test_tika\\1.docx",
"E:\\lucene\\test_tika\\1.xls",
"E:\\lucene\\test_tika\\1.pdf",
"E:\\lucene\\test_tika\\1.mp3",
"E:\\lucene\\test_tika\\死神.rmvb"};
for (String file : tt) {
System.out.println(file);
System.out.println(tika.detect(new File(file)));
String text = tika.parseToString(new File(file));
System.out.print(text);
}
部分效果图: