lucene 文件格式分析

转载http://blog.csdn.net/devfan/article/details/4436222

segment
每个segment代表lucene一个完整的索引段。通常一个索引中包含了多个segment。每个segment都有统一的前缀,前缀名由Document的数量转成36进制后,在前面加“_”而构成的。通常一个完整索引中,有且只有一个没有后缀名的segment文件,它记录了当前索引中所有的segment的信息。

.fnm
此文件包含了Document中的所有field名称

.fdx和.fdt
是综合使用的两类文件,其中.fdt存储了设置了Store.YES属性的field的数据。而.fdx是一个索引,存储Document在.fdt中的位置

.tii和.tis
.tis存储分词后的词条(term),而.tii就是它的索引文件,表明了每个.tis文件中词条的位置

deletable
作用相当于回收站,当文档在被删除后,会首先在deletable中保留一条记录,要真正删除时,才将索引移出

复合索引格式.cfs
在IndexWriter中有个属性useCompoundFile,默认为true即默认采用复合索引格式保存索引的,其含义是是否用复合索引格式来保存索引。索引的内容可能非常大文件可能非常多,如各这样系统打开文件数量巨大将消耗系统大量资源。因此lucene提供能一种单一索引格式。

转载于:https://www.cnblogs.com/firedraky/archive/2013/04/23/3037727.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值