一种高效的外部索引算法

增量hash算法

B+树是一种效率非常高的外存索引算法,但是B+树实现比较复杂。而使用hashtable作为索引要解决的问题是:怎么可以是bucket动态增长。现在已经存在的解决方案是可扩展hash,但是此算法也比较复杂,而且当不同的key有同样的hash值的时候,会出现无限扩展的问题。下面我要介绍的增量hash算法实现比较简单,而且效率跟B+树相当。

增量hash算法的原理很简单,就是多层bucket组成的,如下图:


一个bucket中可以拥有n个元素,而每个元素都是固定格式,如下图:


flag字段保存的是本元素属于什么类型的元素,有3种情况:
(1)        当flag等于0,表示此元素为空。
(2)        当flag等于1,表示此元素是一个指向数据记录的指针。
(3)        当flag等于-1,表示此元素是一个指向下一层的指针。



从上图可以看出,当flag等于0的时候表示此元素为空,则什么都没有保存。而当flag为1的时候表示此元素是一个指向数据记录的指针,offset字段是数据 文件的文件偏移量,而key_length字段是key的长度,data_length是数据的长度。当flag等于-1的时候,表示此元素是一个指向下一个bucket的指针,step字段是hash算法增量,bucket_size字段是下一个bucket的大小,offset字段是下一个bucket的文件偏移量。

【1】        插入操作
当插入一个元素的时候,我们首先定位到一个要插入的位置。插入方法如下:首先从增量hash表的根bucket开始,通过hash(key, step)计算出key的hash值,然后定位到其中的一个元素上面,
(1) 如果此元素flag字段为0,表示此元素为空,那么我们可以直接插入,把flag字段设置为1,把key_length字段设置为key的长度,data_length设置为数据的长度,offset字段设置为此记录在数据文件的文件偏移量。
(2) 如果此元素flag字段为1,表示此元素是一个指向数据记录的指针,那么我们要做的操作如下:新建一个bucket,通过hash(key, step)计算出key的hash值。然后定位到新的bucket上面。修改元素的flag字段为-1,step为增量hash算法的增量,bucket_size为新bucket的大小,offset为新bucket所在索引文件的文件偏移量。把新bucket写入到索引文件中。
(3) 如果此元素flag字段为-1,表示此元素是一个指向下一层的指针。那么我们可以沿着这个链一直搜索下去,直到遇到一个flag字段为0或者1的元素。那么就变成(1)和(2)情况。那么就可以按照(1)或者(2)的处理方法来进行处理。

【2】        查询操作
查询操作比较简单,就是从增量hash表的根bucket开始,按照hash(key, step)计算出hash值,再定位到其中的一个元素,
(1) 如果此元素flag字段为0表示不存在此记录。
(2) 如果flag字段为1,那么我们就要去数据文件取得key,再比较他们是否相等,如果相等就表示找到了记录,否则就表示记录不存在。
(3) 如果flag字段为-1,那么就遍历,直到找到一个元素的flag字段为0或者1。

【3】        删除操作
删除操作首先按照查询操作找到记录所在的元素,然后直接把元素的flag字段设置为0即可。
(1)        如果此时bucket只有一个非空元素,那么我们可以把bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为1,并重新修改各个字段。
(2)        如果已经没有非空元素,那么可以把这个bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为0即可。


增量hash算法:
每一层bucket的step是不一样的。我们就是根据step来计算一个key在不同bucket层的hash值。算法可以如下:
  1. int hash(char *key, int step)
  2. {
  3.         int h = 0;
  4.         while(*key)
  5.         {
  6.                 h += h * step + *key;
  7.         }

  8.         return h % 0x7FFFFFFF;
  9. }
增量hash算法的分布越分散,效率就越高。

另外,当每个bucket有1000个元素的时候,3层就可以保存1000000000个记录。所以效率是非常可观的。

当然这个增量hash算法还有很多需要改进的地方,希望各位高手可以指点和提出建议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值