一种高效的外部索引算法

最新推荐文章于 2022-06-24 11:13:16 发布

liexusong

最新推荐文章于 2022-06-24 11:13:16 发布

阅读量1.5k

点赞数

分类专栏： C语言文章标签：算法扩展

本文链接：https://blog.csdn.net/liexusong/article/details/6640561

版权

C语言专栏收录该内容

8 篇文章 0 订阅

订阅专栏

增量hash算法

B+树是一种效率非常高的外存索引算法，但是B+树实现比较复杂。而使用hashtable作为索引要解决的问题是：怎么可以是bucket动态增长。现在已经存在的解决方案是可扩展hash，但是此算法也比较复杂，而且当不同的key有同样的hash值的时候，会出现无限扩展的问题。下面我要介绍的增量hash算法实现比较简单，而且效率跟B+树相当。

增量hash算法的原理很简单，就是多层bucket组成的，如下图：

一个bucket中可以拥有n个元素，而每个元素都是固定格式，如下图：

flag字段保存的是本元素属于什么类型的元素，有3种情况：
(1) 当flag等于0，表示此元素为空。
(2) 当flag等于1，表示此元素是一个指向数据记录的指针。
(3) 当flag等于-1，表示此元素是一个指向下一层的指针。

从上图可以看出，当flag等于0的时候表示此元素为空，则什么都没有保存。而当flag为1的时候表示此元素是一个指向数据记录的指针，offset字段是数据文件的文件偏移量，而key_length字段是key的长度，data_length是数据的长度。当flag等于-1的时候，表示此元素是一个指向下一个bucket的指针，step字段是hash算法增量，bucket_size字段是下一个bucket的大小，offset字段是下一个bucket的文件偏移量。

【1】插入操作
当插入一个元素的时候，我们首先定位到一个要插入的位置。插入方法如下：首先从增量hash表的根bucket开始，通过hash(key, step)计算出key的hash值，然后定位到其中的一个元素上面，
(1) 如果此元素flag字段为0，表示此元素为空，那么我们可以直接插入，把flag字段设置为1，把key_length字段设置为key的长度，data_length设置为数据的长度，offset字段设置为此记录在数据文件的文件偏移量。
(2) 如果此元素flag字段为1，表示此元素是一个指向数据记录的指针，那么我们要做的操作如下：新建一个bucket，通过hash(key, step)计算出key的hash值。然后定位到新的bucket上面。修改元素的flag字段为-1，step为增量hash算法的增量，bucket_size为新bucket的大小，offset为新bucket所在索引文件的文件偏移量。把新bucket写入到索引文件中。
(3) 如果此元素flag字段为-1，表示此元素是一个指向下一层的指针。那么我们可以沿着这个链一直搜索下去，直到遇到一个flag字段为0或者1的元素。那么就变成(1)和(2)情况。那么就可以按照(1)或者(2)的处理方法来进行处理。

【2】查询操作
查询操作比较简单，就是从增量hash表的根bucket开始，按照hash(key, step)计算出hash值，再定位到其中的一个元素，
(1) 如果此元素flag字段为0表示不存在此记录。
(2) 如果flag字段为1，那么我们就要去数据文件取得key，再比较他们是否相等，如果相等就表示找到了记录，否则就表示记录不存在。
(3) 如果flag字段为-1，那么就遍历，直到找到一个元素的flag字段为0或者1。

【3】删除操作
删除操作首先按照查询操作找到记录所在的元素，然后直接把元素的flag字段设置为0即可。
(1) 如果此时bucket只有一个非空元素，那么我们可以把bucket删除，然后修改此bucket的上一层bucket所在的元素的flag字段为1，并重新修改各个字段。
(2) 如果已经没有非空元素，那么可以把这个bucket删除，然后修改此bucket的上一层bucket所在的元素的flag字段为0即可。

增量hash算法：
每一层bucket的step是不一样的。我们就是根据step来计算一个key在不同bucket层的hash值。算法可以如下：