Lucene
的原作者是
Doug Cutting
,他是一位资深全文索引
/
检索专家,曾经是
V-Twin
搜索引擎
[6]
的主要开发者,后在
Excite
[7]
担任高级系统架构设计师,目前从事于一些
Internet
底层架构的研究。早先发布在作者自己的
http://www.lucene.com/
,后来发布在
SourceForge
[8]
,
2001
年年底成为
apache
软件基金会
jakarta
的一个子项目:
http://jakarta.apache.org/lucene/
。
Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专 家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能 够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多 其他语言的版本:Perl、Python、C++、.Net等。
同其他开源项目一样,Lucene具有非常好 的架构,能够方便地在其基础上进行研究与开发,添加新功能或者开发 新系统。Lucene本身只支持文本文件及少量语种的索引,并且不具备爬虫功能,而这正是Lucene的魅力所在,通过Lucene提供的丰富接口,我们 可以根据自身的需要在其上添加具体语言的分词器,针对具体文档的文本解析器等,而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业 软件来完成,这也保证了Lucene在索引及搜索方面的专注性。目前,通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目,如 LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准,为许多搜索引擎所采用。