Lucene是一个高效的基于java的全文检索工具。
数据分为结构化数据和非结构化数据。
结构化数据用sql语句等查询,非结构化数据的检索主要用到两种方法:一是顺序扫描法,一是将非结构化数据中的一部分信息提取出来重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。
这部分从非结构化数据中提取出来的然后重新组织的信息就是索引。
这种先建立索引,再对索引进行搜索的过程就叫全文索引(Full-text Search)。
全文检索大体分两个过程,索引创建(Indexing)和搜索索引(Search)。