Lucene 之 IndexedDISI(一)

IndexedDISI工具类在Lucene中用来存储Norm/DovValues对应的文档号,其实现原理借鉴了roaring bitmaps(见文章RoaringDocIdSet),本文先通过介绍在Lucene7.5.0中的实现来理解其原理,接着会介绍在Lucene8.4.0中的优化实现。

IndexedDISI写入文档号

Block

  使用IndexDISI存储的数据结构如下所示:

图1:

  图1中,每个block用来描述最多2^16个文档号信息,例如第一个block中描述的文档号集合为[0, 2^16 - 1],在处理某个文档号时,根据下面的公式来找到存储该文档号对应的block:

 

 

 

1

int block = docId >>> 16

  如果当前处理的文档号为 3,那么根据上面的公式 block = 3 >>> 16 = 0,那么文档号3将被存储在第一个block中,如果当前处理的文档号为 65538,根据上面的公式 block = 65538 >>> 16 = 1,那么文档号65538将被存储在第二个block中。

 

看这里:https://www.amazingkoala.com.cn/Lucene/gongjulei/2020/0511/140.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值