Lucene源码分析 - Lucene50SkipWriter 构建跳表

本文的代码以lucene-core 6.3.0为准,包含Lucene50SkipWriter的bufferSkip函数,writeSkip函数等整个类所有代码的解析。转载请注明出处。

0 基本信息

   Lucene50SkipWriter类用来构建跳表,先了解下这个类的基本信息:
在这里插入图片描述

图 1(这里是对 BLOCK_SIZE 为3的block list构建的跳表)
  • 从图中可以看出来,跳表其实就是一个二维数组,数组的每个元素称为跳跃点(后文用skip point代替),level 0行存的是(docId,doc偏移量,pos偏移量,payload偏移量),其余的level n存的是(docId,doc偏移量,pos偏移量,payload偏移量,第n-1行对应的skip point的偏移量)。
  • skip point里面存的docId,偏移量都是delta值。
  • skipBuffer是个RAMOutputStream的数组,用来存跳表,相当于一个二维字节数组。
  • skipInterval是level 0的跳跃间距,skipMultiplier是level > 0的跳跃间距。
  • 在lucene构建跳表时,skipInterval就是Packed Blocks的BLOCK_SIZE(128),level > 0的跳跃间隔不能是skipInterval,如果是,那level 1的第一个跳跃点就会跳过128 * 128个文档,这个间隔太大,所以level > 0只能用一比较小的变量skipMultiplier,lucene中这个值是8。

1 源码分析

   整体而言构建跳表比较简单,每个block的第一个docId会用来构建跳表,bufferSkip函数对block list中的第df个文档构建跳表。在图 1中,是对docId为(6,13,18,40)的列表构建跳表,其对应的df值为(3,6,9,12)。
   lucene在每次写入skip point的时候,都会检查这个跳跃点能构建多少层level,如图 1中,skipInterval值为3,skipMultiplier值为2,对docId 40的文档构建的时候,可知这是第12个文档,3 * 2 * 2=12,所以可以构建3层level,而docId 18是第9个文档,(9 / 3) % 2 != 0,只能构建一层level 。详细代码如下:

  public void bufferSkip(int df) throws IOException {
   
    int numLevels = 1;
    df /= skipInterval;		// 这里表示 skip point一定会写入到 level 0
   
    // 计算当level >0时,当前 df 能够构建多少层的level
    while ((df % skipMultiplier) == 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值