本文的代码以lucene-core 6.3.0为准,包含Lucene50SkipWriter的
bufferSkip
函数,writeSkip
函数等整个类所有代码的解析。转载请注明出处。
0 基本信息
Lucene50SkipWriter类用来构建跳表,先了解下这个类的基本信息:
- 从图中可以看出来,跳表其实就是一个二维数组,数组的每个元素称为跳跃点(后文用skip point代替),level 0行存的是(docId,doc偏移量,pos偏移量,payload偏移量),其余的level n存的是(docId,doc偏移量,pos偏移量,payload偏移量,第n-1行对应的skip point的偏移量)。
- skip point里面存的docId,偏移量都是delta值。
skipBuffer
是个RAMOutputStream的数组,用来存跳表,相当于一个二维字节数组。skipInterval
是level 0的跳跃间距,skipMultiplier
是level > 0的跳跃间距。- 在lucene构建跳表时,
skipInterval
就是Packed Blocks的BLOCK_SIZE(128),level > 0的跳跃间隔不能是skipInterval
,如果是,那level 1的第一个跳跃点就会跳过128 * 128个文档,这个间隔太大,所以level > 0只能用一比较小的变量skipMultiplier
,lucene中这个值是8。
1 源码分析
整体而言构建跳表比较简单,每个block的第一个docId会用来构建跳表,bufferSkip
函数对block list中的第df
个文档构建跳表。在图 1中,是对docId为(6,13,18,40)的列表构建跳表,其对应的df
值为(3,6,9,12)。
lucene在每次写入skip point的时候,都会检查这个跳跃点能构建多少层level,如图 1中,skipInterval
值为3,skipMultiplier
值为2,对docId 40的文档构建的时候,可知这是第12个文档,3 * 2 * 2=12,所以可以构建3层level,而docId 18是第9个文档,(9 / 3) % 2 != 0,只能构建一层level 。详细代码如下:
public void bufferSkip(int df) throws IOException {
int numLevels = 1;
df /= skipInterval; // 这里表示 skip point一定会写入到 level 0
// 计算当level >0时,当前 df 能够构建多少层的level
while ((df % skipMultiplier) ==