Lucene源码分析 - Lucene50SkipWriter 构建跳表

最新推荐文章于 2022-04-15 16:10:43 发布

zoov

最新推荐文章于 2022-04-15 16:10:43 发布

阅读量711

点赞数

分类专栏： lucene源码分析文章标签： Lucene源码分析

本文链接：https://blog.csdn.net/wang_hnust/article/details/88246320

版权

本文的代码以lucene-core 6.3.0为准，包含Lucene50SkipWriter的bufferSkip函数，writeSkip函数等整个类所有代码的解析。转载请注明出处。

0 基本信息

Lucene50SkipWriter类用来构建跳表，先了解下这个类的基本信息：
在这里插入图片描述

图 1(这里是对 BLOCK_SIZE 为3的block list构建的跳表)

从图中可以看出来，跳表其实就是一个二维数组，数组的每个元素称为跳跃点(后文用skip point代替)，level 0行存的是(docId，doc偏移量，pos偏移量，payload偏移量)，其余的level n存的是(docId，doc偏移量，pos偏移量，payload偏移量，第n-1行对应的skip point的偏移量)。
skip point里面存的docId，偏移量都是delta值。
skipBuffer是个RAMOutputStream的数组，用来存跳表，相当于一个二维字节数组。
skipInterval是level 0的跳跃间距，skipMultiplier是level > 0的跳跃间距。
在lucene构建跳表时，skipInterval就是Packed Blocks的BLOCK_SIZE(128)，level > 0的跳跃间隔不能是skipInterval，如果是，那level 1的第一个跳跃点就会跳过128 * 128个文档，这个间隔太大，所以level > 0只能用一比较小的变量skipMultiplier，lucene中这个值是8。

1 源码分析

整体而言构建跳表比较简单，每个block的第一个docId会用来构建跳表，bufferSkip函数对block list中的第df个文档构建跳表。在图 1中，是对docId为（6，13，18，40）的列表构建跳表，其对应的df值为（3，6，9，12）。
lucene在每次写入skip point的时候，都会检查这个跳跃点能构建多少层level，如图 1中，skipInterval值为3，skipMultiplier值为2，对docId 40的文档构建的时候，可知这是第12个文档，3 * 2 * 2=12，所以可以构建3层level，而docId 18是第9个文档，(9 / 3) % 2 != 0，只能构建一层level 。详细代码如下：

  public void bufferSkip(int df) throws IOException {
   
    int numLevels = 1;
    df /= skipInterval;		// 这里表示 skip point一定会写入到 level 0
   
    // 计算当level >0时，当前 df 能够构建多少层的level
    while ((df % skipMultiplier) ==

最低0.47元/天解锁文章

zoov

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Lucene源码分析 - Lucene50SkipWriter 构建跳表

本文的代码以lucene-core 6.3.0为准，包含Lucene50SkipWriter的bufferSkip函数，finish函数等整个类所有代码的解析。转载请注明出处。
复制链接

扫一扫