全文检索技术是现代信息检索的核心技术,它能够根据数据资料的内容而不是外在特征来进行信息检索,是在海量数据中快速、准确的找到所需要信息的一种有效手段。ApacheLucene是一个纯Java实现的高性能、可扩展的全文检索类库,设计初衷就是为需要搜索功能的应用程序提供索引和全文检索的能力。本文深入研究了全文检索的核心技术、倒排索引创建过程,相似度评分机制等。并研究了Lucene源码结构和逻辑结构,分析了Lucene的工作原理,在此基础上基于Lucene构建了一个实时全文检索系统框架。并针对普通类型的文档索引提供了默认实现。该系统既可以方便的嵌入到需要全文检索能力的各种应用中,同时还可以基于此系统开发定制个性化的全文检索引擎。最后通过实验测试了系统的索引和检索效率,并提供了一个简易的Web站内搜索应用实例。
关键词:全文检索;Lucene;REST架构;实时检索
参考文档和完整的文档和源码下载地址: