Lucene 索引文件格式详解

1.索引的SEGMENT
每个SEGMENT代表LUCENE的一个完成的索引段,通常,在一个索引中,会包含多个SEGMENT,每个SEGMENT都有统一的前缀,这个前缀是根据当前索引的DOCUMENT的数量而确立的。前缀名是DOCUMENT转成36进制后在前面加“_"组成。
通常在以个完成的索引中,只有一个SEGMENT文件。这个文件没有后缀,他记录了当前索引中所有的SEGMENT信息。
2.fnm格式
改格式文件包含了DOCUMENT中所有的FIELD的名称
3..fdx与.fdt格式文件
.fdt类型文件用于存储具有Store.YES属性的Field的数据。而.fdx类型文件则是一个索引用于存储Document在.fdt中的位置。
4..tii格式和.tis格式
.tis文件用于存储分词后的词条,而.tii就是他的索引文件,他标明了每个.tis文件中的词条的位置
5.deletable格式
在LUCENE的索引中,所有的文档被删除后并不是立刻从索引中去除,而是留待下一次合并索引货是对索引进行优化时候才真正删除,有点类似回收站的功能。这种功能就是通过deletable文件实现。所有文件被删除后,会首先在deletable文件中留下一笔记录,要真正删除时候才将索引除去。
6.复合索引格式.cfs
在indexwriter中有个属性useCompoundFile他的默认值是TRUE,这个属性含义,是否使用复合索引格式来保存索引。索引的内容可能非常的大,文件数量也可能非常的多,使用复合索引来存储DOCUMEN,只需要初始化完一个INDEXWRITER对象后,使用该方法就可以了。
使用该方法就是将除了6以外的文件类似打包一样集合起来。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值