Lucene 索引文件的生成（二十）之dvd&&dvm

最新推荐文章于 2022-01-19 23:01:38 发布

小朋友87

最新推荐文章于 2022-01-19 23:01:38 发布

阅读量232

点赞数

分类专栏： Lucene 文章标签： Lucene dvm dvd docValues

本文链接：https://blog.csdn.net/q364367207/article/details/106571033

版权

Lucene 专栏收录该内容

159 篇文章 17 订阅

订阅专栏

本文承接文章索引文件的生成（十九）之dvm&&dvd继续介绍剩余的内容。

生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues

生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues的流程图：

图1：

写入TermsDict信息

图2：

在当前流程点，将存储SortedDocValues、SortedSetDocValues对应的所有域值按照字典序写入到索引文件中，在文章索引文件的生成（十八）之dvm&&dvd我们知道，在索引阶段，我们已经通过sortedValues[ ]数组收集了所有种类的域值。

我们通过例子来介绍TermDict的数据结构如下所示：

图3：

图3的例子中，为了便于画图，我们只介绍前4篇文档的存储详情，在文章索引文件的生成（十八）之dvm&&dvd中我们已经介绍了termId的概念，故这里不赘述，直接给出前4篇文档中SortedDocValuesField中的域值对应的termId：

域值	termId
mop	0
star	1
of	2
month	3

sortedValues[ ]数组中的数组元素为termId，并且数组元素是有序的，但是排序规则不是按照数组元素的值，即termId，而是按照termId对应的域值的字典序，故sortedValues[ ]数组如下所示：

图4：

随后依次读取sortedValues[ ]数组中每一个termId，找到termId对应的域值，将这些域值写入到索引文件.dvd中，可见是按照域值从小到大的顺序（字典序）写入的，如下所示：

图5：

查看大图

图5中，根据sortedValues[ ] 数组中的termId作为bytesStart[ ]数组的下标值，从bytesStart[ ]数组获取域值在buffers二维数组中的起始位置，最后在buffers二维数组中获取到在索引期间存储的域值，其中bytesStart[ ]数组、buffers二维数组的介绍见文章ByteRefHash，在那篇文章中，sortedValues[ ]数组即排序后的ids[]数组。

剩余内容看这里：https://www.amazingkoala.com.cn/Lucene/Index/2020/0602/146.html

小朋友87

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene 索引文件的生成（二十）之dvd&&dvm

本文承接文章索引文件的生成（十九）之dvm&&dvd继续介绍剩余的内容。生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues 生成索引文件.dvd、.dvm之SortedDocValues、SortedSetDocValues的流程图：图1：写入TermsDict信息图2：在当前流程点，将存储SortedDocValues、SortedSetDocValues对应的所有域值按照字典序写入到索引文件中，在文章
复制链接

扫一扫