转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/42836309
前面我们已经介绍了非结构数据的检索过程以及lucene的数学模型,这篇博客就主要介绍一下lucene索引的文件结构,下图是lucene生成的索引实例:
lucene索引结构是层次结构,主要有以下几个层次:
索引(Index)
在lucene中,一个索引是放在一个文件夹中的,上述实例中的所有文件就组成了lucene索引
段(Segment)
一个索引中可以有很多段,段与段之间是独立的,添加新的文档可能会生成新段,不同的段可以合并生成一个新段,上图中相同的前缀文件就属于同一个段(图中共有两个段 _0 和 _1),当段的个数达到一定数量,段与段直接会合并,生成新段;segments.gen和segment_2既是段的元数据文件,也保存了段的属性信息。
文档(Document)
文档是创建索引的基本单位,不同的文档保存在不同的段中,一个段可以包含所个文档,新添的文档保存在一个新生成的一个段中,随着段的合并,不同的段会合并成一个新段。
域

本文详细介绍了Lucene的索引结构,包括索引、段、文档、域和词等概念,以及正向信息和反向信息的保存。通过分析文件结构,展示了如何从索引到词的层次关系,并提及了不同版本Lucene的文件结构变化。
最低0.47元/天 解锁文章
7316

被折叠的 条评论
为什么被折叠?



