一、 索引
1、理解索引过程
Lucene的索引过程可以被分解为3个主要部分:解析、分析、创建索引。
解析:Lucene只能对纯文本建立索引,所以在建立索引前要将数据解析或转换为纯文本。例如你需要索引pdf、word或者xml等,首先需要将这些文档中的文本信息提取出来。另外你需要避免提取无效信息,例如xml元素、html标记等。
分析:一旦准备好了索引数据,当你将它传给lucene索引时,lucene将会分析数据,对其优化,使之更适合进行索引。lucene会对数据进行分词,提取标记(token),转换大小写,去除无意义词(a,an,and等)。
创建索引:在输入数据分析完成后,lucene将要建立索引。lucene将数据保存在一种被称为反向索引的数据结构中。