Lucene实现各种常见文档的全文检索

      Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。


      作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。


      Lucene提供了一个全文检索引擎得架构,而没有提供各种类型文档的全文检索功能,用户需要利用其它软件工具包来提取各种类型文档的内容,然后再利用Lucene的工具包来建立索引。

 

      下面简单介绍一下能够配合Lucene使用的,比较著名的,能够提取各种常见类型文档的工具包。

 

      Apache POI(支持word,excel,powerpoint,visio等格式)
      Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案
读和写的功能。它可以配合Lucene,建立包括doc,docx,xls,xlsx,ppt,pptx等格式的文件的索引。
      HSSF - 提供读写Microsoft Excel格式档案的功能。
      XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。
      HWPF - 提供读写Microsoft Word格式档案的功能。
      HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
      HDGF - 提供读写Microsoft Visio格式档案的功能。
      网址:
http://poi.apache.org/

 

      PDFBox(支持pdf格式)
      PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并
提取文档中的内容。它可以配合Lucene来建立PDF文档的索引。
      它具有以下特性:
      将一个PDF文档转换输出为一个文本文件。
      可以从文本文件创建一个PDF文档。
      加密/解密PDF文档。
      向已有PDF文档中追加内容。
      可以从PDF文档生成一张图片。
      可以与Jakarta Lucene搜索引擎的整合。
      网址:
http://sourceforge.net/projects/pdfbox/

 

      JTidy(支持html格式)
      JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可
以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。它可以配合Lucene来建立HTML文档的索引。
      网址:
http://sourceforge.net/projects/jtidy/

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值