Apache Lucene Tika 文件内容提取工具

Tika入门

 

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

 

在当前版本中,Tika提供了对如下文件格式的支持:

 

PDF - 通过Pdfbox

MS-* - 通过POI

HTML - 使用nekohtml将不规范的html整理成为xhtml

OpenOffice 格式 - Tika提供

Archive - zip, tar, gzip, bzip等

RTF - Tika提供

Java class - Class解析由ASM完成

Image - 只支持图像的元数据抽取

XML

 

下面来一个例子:

 

Java代码   收藏代码
  1. import java.io.BufferedInputStream;  
  2. import java.io.BufferedOutputStream;  
  3. import java.io.File;  
  4. import java.io.FileInputStream;  
  5. import java.io.FileOutputStream;  
  6. import java.io.IOException;  
  7. import java.io.InputStream;  
  8. import java.io.OutputStream;  
  9.   
  10. import org.apache.tika.exception.TikaException;  
  11. import org.apache.tika.metadata.Metadata;  
  12. import org.apache.tika.parser.ParseContext;  
  13. import org.apache.tika.parser.Parser;  
  14. import org.apache.tika.parser.html.HtmlParser;  
  15. import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;  
  16. import org.apache.tika.parser.pdf.PDFParser;  
  17. import org.apache.tika.sax.BodyContentHandler;  
  18. import org.xml.sax.ContentHandler;  
  19. import org.xml.sax.SAXException;  
  20.   
  21. public class TikaDemo {  
  22.     // public static String PATH = "E:\\test.docx";  
  23.     // public static String PATH = "g:\\丁聪生前访谈:画漫画有个屁用!_夏冬红_新浪博客.htm";  
  24.     public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";  
  25.   
  26.     // public static String PATH = "E:\\summerbell的博客文章(32).pdf";  
  27.   
  28.     public static String OUTPATH = PATH + ".OUT";  
  29.   
  30.     /** 
  31.      * @param args 
  32.      * @throws TikaException 
  33.      * @throws SAXException 
  34.      * @throws IOException 
  35.      */  
  36.     public static void main(String[] args) throws IOException, SAXException,  
  37.             TikaException {  
  38.         // Parser parser = new OOXMLParser();  
  39.         // Parser parser = new PDFParser();  
  40.         Parser parser = new HtmlParser();  
  41.         /** 
  42.          * */  
  43.         // InputStream iStream = new BufferedInputStream(new FileInputStream(  
  44.         // new File(PATH)));  
  45.         // OutputStream oStream = new BufferedOutputStream(new FileOutputStream(  
  46.         // new File(OUTPATH)));  
  47.         // ContentHandler iHandler = new BodyContentHandler(oStream);  
  48.         // parser.parse(iStream, iHandler, new Metadata(), new ParseContext());  
  49.         /** 
  50.          * 处理指定编码的html. 
  51.          */  
  52.         InputStream iStream = new BufferedInputStream(new FileInputStream(  
  53.                 new File(PATH)));  
  54.         OutputStream oStream = new BufferedOutputStream(new FileOutputStream(  
  55.                 new File(OUTPATH)));  
  56.         ContentHandler iHandler = new BodyContentHandler(oStream);  
  57.         Metadata meta = new Metadata();  
  58.         meta.add(Metadata.CONTENT_ENCODING, "utf-8");  
  59.         parser.parse(iStream, iHandler, meta, new ParseContext());  
  60.   
  61.     }  
  62. }  

 

 

 

为了检测tika的效率,选取了一个较大的docx文档。

利用=rand(x,y)功能写出1000个段落,每个段落100包含100句文字。

Tika可以正常处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值