使用tika读取各个文件数据

首先我们到官网下载tika的jar包

1.将jar包引入到项目中:



接下来我们就可以进行数据的读取

参考文件: http://www.yiibai.com/tika/tika_architecture.html

1.读取普通本文

[java]  view plain  copy
 print ?
  1. package cn.qblank.tika;  
  2.   
  3. import java.io.File;  
  4.   
  5. import org.apache.tika.Tika;  
  6. /** 
  7.  * 获取普通文本的数据 
  8.  * 使用Tika facade 类从文件中提取文本 
  9.  * @author evan_qb 
  10.  */  
  11. public class ReadText {  
  12.     public static void main(String[] args) throws Exception {  
  13.         File file = new File("D:/test/test.txt");  
  14.         Tika tika = new Tika();  
  15.         String content = tika.parseToString(file);  
  16.         content = new String(content.getBytes("ISO-8859-1"),"gbk");  
  17.         System.out.println("文件内容为:\n" + content);  
  18.     }  
  19. }  




2.读取xml的数据

[java]  view plain  copy
 print ?
  1. package cn.qblank.tika;  
  2.   
  3. import java.io.File;  
  4. import java.io.FileInputStream;  
  5.   
  6. import org.apache.tika.metadata.Metadata;  
  7. import org.apache.tika.parser.ParseContext;  
  8. import org.apache.tika.parser.xml.XMLParser;  
  9. import org.apache.tika.sax.BodyContentHandler;  
  10. /** 
  11.  * 读取xml文件 
  12.  * @author Administrator 
  13.  */  
  14. public class ReaderXML {  
  15.     public static void main(String[] args) throws Exception{  
  16.           //检测文件类型  
  17.           BodyContentHandler handler = new BodyContentHandler();  
  18.           Metadata metadata = new Metadata();  
  19.           FileInputStream inputstream = new FileInputStream(new File("d:/test/contact.xml"));  
  20.           ParseContext pcontext = new ParseContext();  
  21.           //转换为xml  
  22.           XMLParser xmlparser = new XMLParser();   
  23.           xmlparser.parse(inputstream, handler, metadata, pcontext);  
  24.           System.out.println("XML文件内容:\n" + handler.toString());  
  25.           System.out.println("元数据内容:");  
  26.           String[] metadataNames = metadata.names();  
  27.           for(String name : metadataNames) {  
  28.              System.out.println(name + ": " + metadata.get(name));  
  29.           }  
  30.     }  
  31. }  

xml文件:


读取结果:




3.读取html

[html]  view plain  copy
 print ?
  1. package cn.qblank.tika;  
  2.   
  3. import java.io.File;  
  4. import java.io.FileInputStream;  
  5.   
  6. import org.apache.tika.metadata.Metadata;  
  7. import org.apache.tika.parser.ParseContext;  
  8. import org.apache.tika.parser.html.HtmlParser;  
  9. import org.apache.tika.sax.BodyContentHandler;  
  10. /**  
  11.  * 获取HTML的数据  
  12.  * @author Administrator  
  13.  */  
  14. public class ReaderXHTML {  
  15.     public static void main(String[] args) throws Exception {  
  16.         //检测html文件  
  17.         BodyContentHandler handler = new BodyContentHandler();  
  18.         Metadata metadata = new Metadata();  
  19.         FileInputStream inputstream = new FileInputStream(new File("D:/test/test1.html"));  
  20.         ParseContext pcontext = new ParseContext();  
  21.         //转换为HTML  
  22.         HtmlParser htmlparser = new HtmlParser();  
  23.         htmlparser.parse(inputstream, handler, metadata,pcontext);  
  24.         System.out.println("文档内容:\n" + handler.toString());  
  25.         System.out.println("元数据:");  
  26.         String[] metadataNames = metadata.names();  
  27.         for(String name : metadataNames) {  
  28.            System.out.println(name + ":   " + metadata.get(name));    
  29.         }  
  30.     }  
  31.       
  32. }  

html文件如下:


读取结果如下:



4.读取Excel文档:

[java]  view plain  copy
 print ?
  1. package cn.qblank.tika;  
  2.   
  3. import java.io.File;  
  4. import java.io.FileInputStream;  
  5.   
  6. import org.apache.tika.metadata.Metadata;  
  7. import org.apache.tika.parser.ParseContext;  
  8. import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;  
  9. import org.apache.tika.sax.BodyContentHandler;  
  10.   
  11. /** 
  12.  * tika入门:获取Excel文档的数据 
  13.  * @author evan_qb 
  14.  */  
  15. public class ReaderSheet {  
  16.     public static void main(String[] args) throws Exception {  
  17.         //检测文件类型  
  18.         BodyContentHandler handler = new BodyContentHandler();  
  19.         Metadata metadata = new Metadata();  
  20.         FileInputStream inputstream = new FileInputStream(new File("d:/Writesheet.xlsx"));  
  21.         ParseContext pcontext = new ParseContext();  
  22.         //使用OOXMLParser转换器  
  23.         OOXMLParser  msofficeparser = new OOXMLParser ();   
  24.         msofficeparser.parse(inputstream, handler, metadata,pcontext);  
  25.         System.out.println("数据内容:\n" + handler.toString());  
  26.         System.out.println("元数据:");  
  27.         String[] metadataNames = metadata.names();  
  28.         for(String name : metadataNames) {  
  29.            System.out.println(name + ": " + metadata.get(name) );  
  30.         }  
  31.     }  
  32. }  

Excel数据:



读取数据:




装载自:http://blog.csdn.net/evan_qb/article/details/78856563

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值