增量hash算法
B+树是一种效率非常高的外存索引算法,但是B+树实现比较复杂。而使用hashtable作为索引要解决的问题是:怎么可以是bucket动态增长。现在已经存在的解决方案是可扩展hash,但是此算法也比较复杂,而且当不同的key有同样的hash值的时候,会出现无限扩展的问题。下面我要介绍的增量hash算法实现比较简单,而且效率跟B+树相当。
增量hash算法的原理很简单,就是多层bucket组成的,如下图:
一个bucket中可以拥有n个元素,而每个元素都是固定格式,如下图:
flag字段保存的是本元素属于什么类型的元素,有3种情况:
(1) 当flag等于0,表示此元素为空。
(2) 当flag等于1,表示此元素是一个指向数据记录的指针。
(3) 当flag等于-1,表示此元素是一个指向下一层的指针。
从上图可以看出,当flag等于0的时候表示此元素为空,则什么都没有保存。而当flag为1的时候表示此元素是一个指向数据记录的指针,offset字段是数据 文件的文件偏移量,而key_length字段是key的长度,data_length是数据的长度。当flag等于-1的时候,表示此元素是一个指向下一个bucket的指针,step字段是hash算法增量,bucket_size字段是下一个bucket的大小,offset字段是下一个bucket的文件偏移量。
【1】 插入操作
当插入一个元素的时候,我们首先定位到一个要插入的位置。插入方法如下:首先从增量hash表的根bucket开始,通过hash(key, step)计算出key的hash值,然后定位到其中的一个元素上面,
(1) 如果此元素flag字段为0,表示此元素为空,那么我们可以直接插入,把flag字段设置为1,把key_length字段设置为key的长度,data_length设置为数据的长度,offset字段设置为此记录在数据文件的文件偏移量。
(2) 如果此元素flag字段为1,表示此元素是一个指向数据记录的指针,那么我们要做的操作如下:新建一个bucket,通过hash(key, step)计算出key的hash值。然后定位到新的bucket上面。修改元素的flag字段为-1,step为增量hash算法的增量,bucket_size为新bucket的大小,offset为新bucket所在索引文件的文件偏移量。把新bucket写入到索引文件中。
(3) 如果此元素flag字段为-1,表示此元素是一个指向下一层的指针。那么我们可以沿着这个链一直搜索下去,直到遇到一个flag字段为0或者1的元素。那么就变成(1)和(2)情况。那么就可以按照(1)或者(2)的处理方法来进行处理。
【2】 查询操作
查询操作比较简单,就是从增量hash表的根bucket开始,按照hash(key, step)计算出hash值,再定位到其中的一个元素,
(1) 如果此元素flag字段为0表示不存在此记录。
(2) 如果flag字段为1,那么我们就要去数据文件取得key,再比较他们是否相等,如果相等就表示找到了记录,否则就表示记录不存在。
(3) 如果flag字段为-1,那么就遍历,直到找到一个元素的flag字段为0或者1。
【3】 删除操作
删除操作首先按照查询操作找到记录所在的元素,然后直接把元素的flag字段设置为0即可。
(1) 如果此时bucket只有一个非空元素,那么我们可以把bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为1,并重新修改各个字段。
(2) 如果已经没有非空元素,那么可以把这个bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为0即可。
增量hash算法:
每一层bucket的step是不一样的。我们就是根据step来计算一个key在不同bucket层的hash值。算法可以如下:
增量hash算法的分布越分散,效率就越高。
另外,当每个bucket有1000个元素的时候,3层就可以保存1000000000个记录。所以效率是非常可观的。
当然这个增量hash算法还有很多需要改进的地方,希望各位高手可以指点和提出建议。
B+树是一种效率非常高的外存索引算法,但是B+树实现比较复杂。而使用hashtable作为索引要解决的问题是:怎么可以是bucket动态增长。现在已经存在的解决方案是可扩展hash,但是此算法也比较复杂,而且当不同的key有同样的hash值的时候,会出现无限扩展的问题。下面我要介绍的增量hash算法实现比较简单,而且效率跟B+树相当。
增量hash算法的原理很简单,就是多层bucket组成的,如下图:
一个bucket中可以拥有n个元素,而每个元素都是固定格式,如下图:
flag字段保存的是本元素属于什么类型的元素,有3种情况:
(1) 当flag等于0,表示此元素为空。
(2) 当flag等于1,表示此元素是一个指向数据记录的指针。
(3) 当flag等于-1,表示此元素是一个指向下一层的指针。
从上图可以看出,当flag等于0的时候表示此元素为空,则什么都没有保存。而当flag为1的时候表示此元素是一个指向数据记录的指针,offset字段是数据 文件的文件偏移量,而key_length字段是key的长度,data_length是数据的长度。当flag等于-1的时候,表示此元素是一个指向下一个bucket的指针,step字段是hash算法增量,bucket_size字段是下一个bucket的大小,offset字段是下一个bucket的文件偏移量。
【1】 插入操作
当插入一个元素的时候,我们首先定位到一个要插入的位置。插入方法如下:首先从增量hash表的根bucket开始,通过hash(key, step)计算出key的hash值,然后定位到其中的一个元素上面,
(1) 如果此元素flag字段为0,表示此元素为空,那么我们可以直接插入,把flag字段设置为1,把key_length字段设置为key的长度,data_length设置为数据的长度,offset字段设置为此记录在数据文件的文件偏移量。
(2) 如果此元素flag字段为1,表示此元素是一个指向数据记录的指针,那么我们要做的操作如下:新建一个bucket,通过hash(key, step)计算出key的hash值。然后定位到新的bucket上面。修改元素的flag字段为-1,step为增量hash算法的增量,bucket_size为新bucket的大小,offset为新bucket所在索引文件的文件偏移量。把新bucket写入到索引文件中。
(3) 如果此元素flag字段为-1,表示此元素是一个指向下一层的指针。那么我们可以沿着这个链一直搜索下去,直到遇到一个flag字段为0或者1的元素。那么就变成(1)和(2)情况。那么就可以按照(1)或者(2)的处理方法来进行处理。
【2】 查询操作
查询操作比较简单,就是从增量hash表的根bucket开始,按照hash(key, step)计算出hash值,再定位到其中的一个元素,
(1) 如果此元素flag字段为0表示不存在此记录。
(2) 如果flag字段为1,那么我们就要去数据文件取得key,再比较他们是否相等,如果相等就表示找到了记录,否则就表示记录不存在。
(3) 如果flag字段为-1,那么就遍历,直到找到一个元素的flag字段为0或者1。
【3】 删除操作
删除操作首先按照查询操作找到记录所在的元素,然后直接把元素的flag字段设置为0即可。
(1) 如果此时bucket只有一个非空元素,那么我们可以把bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为1,并重新修改各个字段。
(2) 如果已经没有非空元素,那么可以把这个bucket删除,然后修改此bucket的上一层bucket所在的元素的flag字段为0即可。
增量hash算法:
每一层bucket的step是不一样的。我们就是根据step来计算一个key在不同bucket层的hash值。算法可以如下:
- int hash(char *key, int step)
- {
- int h = 0;
- while(*key)
- {
- h += h * step + *key;
- }
- return h % 0x7FFFFFFF;
- }
另外,当每个bucket有1000个元素的时候,3层就可以保存1000000000个记录。所以效率是非常可观的。
当然这个增量hash算法还有很多需要改进的地方,希望各位高手可以指点和提出建议。