内容解析工具:TIKA

一、TIKA是什么

 

        它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。

 

二、TIKA的作用

 

       1.能识别文档类型、编码、语言、其他属性

       2.抽取文档内容

 

三、获取TIKA

 

       1.得到TIKA:http://tika.apache.org/download.html

                             要是不想不想重新打包项目,可以直接下载:tika-app-1.3.jar



 

       2.得到MAVEN:http://maven.apache.org/download.cgi

      

      3.设置JAVA_HOME变量

    

      4.用mven来编译项目了。

         下面用的是我的解压路径。在tika的目录中打开cmd,运行maven

 

 最后会在每个项目中生成target目录,里面有jar文件



 

 四、TIKA的简单用法

 

Tika tika=new Tika();
		//System.out.println(tika.parseToString(new URL("http://www.taobao.com")));
//		System.out.println(tika.parseToString(new File("TikaSample.class")));
		String[] tt=new String[]{"E:\\lucene\\test_tika\\1.class",
				                  "E:\\lucene\\test_tika\\2.txt",
				                  "E:\\lucene\\test_tika\\1.docx",
				                  "E:\\lucene\\test_tika\\1.xls",
				                  "E:\\lucene\\test_tika\\1.pdf",
				                  "E:\\lucene\\test_tika\\1.mp3",
				                  "E:\\lucene\\test_tika\\死神.rmvb"};
		 for (String file : tt) {  
			      System.out.println(file);
			      System.out.println(tika.detect(new File(file))); 
			      String text = tika.parseToString(new File(file));  
			      System.out.print(text); 
	}

 部分效果图:



 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值