Lucene 索引文件的生成（二十五）之kdd&kdi&kdm

最新推荐文章于 2021-06-03 12:49:30 发布

小朋友87

最新推荐文章于 2021-06-03 12:49:30 发布

阅读量346

点赞数

分类专栏： Lucene 文章标签： Lucene kdd kdm bkd

本文链接：https://blog.csdn.net/q364367207/article/details/111375688

版权

Lucene 专栏收录该内容

159 篇文章 17 订阅

订阅专栏

在系列文章索引文件的生成（Lucene 7.5.0）中，我们介绍了存储维度（见文章Bkd-Tree）值大于等于2的数值类型对应的索引文件的生成过程。对于维度值等于1的情况，其生成过程有少许的不同。为了后续便于介绍该类型的索引文件的合并，我们需要再写一篇文章来介绍其生成过程。

索引文件的变更

图1：

从Lucene 8.6.0开始，用于存储点数据（point value）的索引文件由原先的索引文件dim&&dii，改为三个索引文件kdd&kdi&kdm，其变更的目的可以看这个issue，本文中不展开讨论。

给出图1的目的是为了说明，点数据对应的索引文件，其生成的总体流程没有太大变动的，下文中介绍维度值为1的生成过程（基于Lucene 8.7.0）时，只会介绍与维度值大于等于2的不同的流程点，其相同的流程点可以参考系列文章索引文件的生成（基于Lucene 7.5.0）。

差异

维度值为1的生成索引文件的过程中，唯一不同点在于图1中的流程点构建BKD树的节点值（node value），如下所示：

图2：

点击查看大图

图2中，红框标注的流程点表示在这些流程点的处理方式是一致的。

生成索引文件kdd&kdi&kdm的流程图

图3：

节点

图4：

流程点节点中包含了在索引（Indexing）期间收集的点数据信息，收集相关的介绍见文章索引文件的生成（八）。

节点内的点数据排序

图5：

无论维度的数量是多少，最终生成的bkd树的每个叶子节点中的点数据是有序的。对于维度大于等于2的情况，叶子节点中点数据的排序规则取决这个叶子节点的父节点在进行左右子树划分时选择的某个维度，对应图2中流程点内部节点的排序，该流程点的详细介绍见文章索引文件的生成（十）。对于维度等于1的情况，由于不用考虑选择哪个维度进行排序，所以对于某个点数据域来说，直接对flush/commit收集到的全量点数据进行排序即可，随后对这个有序的集合按块划分（下文会介绍）后，每一块中的点数据集合将被写入到一个叶子节点，如下所示。另外排序使用的算法为最大有效位的基数排序(MSB radix sort)。

图6：