Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。

Apache Tika 可以利用现有的类库,从不同的格式文档中读取数据。
利用Tika和Lucene的集成可以方便的对文档进行索引。
利用tika解析文档的例子
这里使用的是tika-1.2.jar

 

 
  
  1. package test; 
  2.  
  3. import java.io.File; 
  4. import java.io.FileInputStream; 
  5. import java.io.FileNotFoundException; 
  6. import java.io.IOException; 
  7. import java.io.InputStream; 
  8.  
  9. import org.apache.tika.exception.TikaException; 
  10. import org.apache.tika.metadata.Metadata; 
  11. import org.apache.tika.parser.AutoDetectParser; 
  12. import org.apache.tika.parser.ParseContext; 
  13. import org.apache.tika.parser.Parser; 
  14. import org.apache.tika.sax.BodyContentHandler; 
  15. import org.apache.tika.sax.ContentHandlerDecorator; 
  16. import org.xml.sax.ContentHandler; 
  17. import org.xml.sax.SAXException; 
  18.  
  19. public class TikaTest { 
  20.     public static void main(String[] args) { 
  21.         String classPath = TikaTest.class.getResource("/").getPath(); 
  22.         classPath += "doc/test.doc"
  23.         System.out.println(classPath); 
  24.         File f = new File(classPath); 
  25.         Parser parser = new AutoDetectParser(); 
  26.         InputStream input = null
  27.         try { 
  28.             input = new FileInputStream(f); 
  29.             ContentHandler handler = new BodyContentHandler(); 
  30.             ParseContext context = new ParseContext(); 
  31.             context.set(Parser.class, parser); 
  32.             Metadata data = new Metadata(); 
  33.             parser.parse(input, handler, data, context); 
  34.             System.out.println(handler.toString()); 
  35.         } catch (FileNotFoundException e) { 
  36.             // TODO Auto-generated catch block 
  37.             e.printStackTrace(); 
  38.         } catch (Exception e) { 
  39.             // TODO Auto-generated catch block 
  40.             e.printStackTrace(); 
  41.         } finally
  42.             if(input!=null){ 
  43.                 try { 
  44.                     input.close(); 
  45.                 } catch (IOException e) { 
  46.                     // TODO Auto-generated catch block 
  47.                     e.printStackTrace(); 
  48.                 } 
  49.             } 
  50.         } 
  51.          
  52.     }