目录
- Apache Tika介绍
- Apache Tika实例一
- Apache Tika实例二
- Apache Tika实例三
- 相关链接
一,Apache Tika介绍
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。
使用Tika要下载一个压缩包和一个jar包,下载之后即可。下载地址:http://tika.apache.org/download.html
在当前的版本中, Tika提供了对如下文件格式的支持:
- PDF - 通过Pdfbox
- MS-* - 通过POI
- HTML - 使用nekohtml将不规范的html整理成为xhtml
- OpenOffice 格式 - Tika提供
- Archive - zip, tar, gzip, bzip等
- RTF - Tika提供
- Java class - Class解析由ASM完成
- Image - 只支持图像的元数据抽取
- XML
二,Apache Tika实例一
(1)配置运行环境
运行Tika首先我们要配置好java环境。下载并配置java jdk。之后在命令提示符中检验java 环境,输入javac 和 java -version
(2)Tika准备包下载之后,我们在命令提示符中输入自己安装tika-app-1.14 jar包的位置,我安装在F盘的ApacheTika
目录下,输入java -jar tika-app-1.14.jar –gui之后,会自动打开GUI界面
java -jar tika-app-1.14.jar –gui
(2)下面用一个具体的例子来看Tika 是怎样实现格式之间的转换的。你可以打开本地文件或者添加你要解析的url地址。
以四川大学公共管理学院教师主页为例.实现HTML转换成其他格式
- 点击file-open URL-输入URL-确定
2.点击view可以切换成其他的格式
3.Tika 对图片的处理主要提供一些原信息,并不能分析出图片内的内容。
三,Apache Tika实例二
使用命令直接进行格式转换
在命令提示中定位到我们安装tika的位置后,输入java -jar tika-app-1.14.jar –help
java -jar tika-app-1.14.jar –help
结果如图所示
按Java -jar tika-app-1.14.jar –你想要转换的文件格式(如text) 要转换格式的文件的路径(如C:\tikatest.doc)
Java -jar tika-app-1.14.jar –text C:\tikatest.doc
即可得到反馈结果,其他格式方法一样。
四, Apache Tika实例三
在其他工程中使用Tika,这里以eclipse为例,新建一个要转换格式的文件,我把它放在C盘下
新建一个java项目->导入tika-app-1.14.jar包->在src下面新建一个java文件->在javaw文件中编写代码->测试结果->生成转换后的文件
写一个简单的测试例子,在test.java文件中写入如下代码
package Tika;
import java.io.File;
import org.apache.tika.Tika;
import java.io.*;
public class test {
public static void main(String[] args) throws Exception{
//二进制文件路径
String fileName="c:/Tikatest.txt";
//二进制文件
File file1 = new File(fileName);
//通过tika获取文件内容
Tika tika = new Tika();
String filecontent = tika.parseToString(file1);
//打印文件内容
System.out.println("Extracted Content: " + filecontent);
try{
//要转换到的文件
File file =new File("c:/tikatest.doc");
//文件不存在就新建
if(!file.exists()){
file.createNewFile();
}
//把二进制文件内容写入doc文件
FileWriter fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
bw.write(filecontent);
bw.close();
System.out.println("Done");
}catch(IOException e){
e.printStackTrace();
}
}
}
运行,结果如下:
接下来,我们可以打开你存放转换后的文件的位置,可以看到生成了一个 你想转换成的文件
打开有如下显示,则说明转换成功
五,相关链接
https://tika.apache.org/download.html
http://blog.csdn.net/zwx19921215/article/details/24779371
http://blog.csdn.net/gyy823/article/details/20405057
http://www.jianshu.com/p/2a6ad1941788?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq