理解索引过程
Lucene索引过程分为三个主要的阶段:将数据转换为文本、分析文本、将分析过的文本保存到索引库中
1 转换成文本
在索引之前,必须将数据转换为Lucene可以处理的格式——纯文本字符流。
2 分析
完成了针对待索引数据的预处理,并创建了带有若干个域的Document对象,就可以调用IndexWriter的addDocument(Document)方法,将数据传递给Lucene来进行索引操作。
对数据进行索引处理时,Lucene会首先分析数据使之更适合被索引。分析数据时,先将文本数据切分成一些词汇单元tokens,然后对它们进行一些可选操作。
3 将分析后的数据写入索引
Lucene将输入数据以倒排索引的数据结构进行存储。(这种data structure可以迅速回答诸如“哪些文档包含词汇x?”一类的问题)