Redis底层数据结构——整数集合

整数集合是什么

Redis 中的整数集合 intset 是用来保存多个不重复的整数值且有序的集合抽象数据结构,可以保存类型为 int16-t 、int32-t 或者 int64-t 的整数值。

整数集合应用场景

整数集合在 Redis 中作为了集合 Set 数据结构的底层实现之一。

当一个集合中的元素都是整数值,且元素不多的时候,整数集合就会作为集合 Set 的底层实现。

整数集合结构内容

整数集合结构的具体代码:

typedef struct intset {      

    // 编码方式    
    uint32_t encoding;    

    // 集合包含的元素数量    
    uint32_t length;    

    // 保存元素的数组    
    int8_t contents[];

} intset;
属性 encoding

属性 encoding 代表着整数集合存储整数值时,所使用的存储类型长度。

encoding 的值可以为下面三种常量类型其中之一。

define INTSET_ENC_INT16 (sizeof(int16_t))
define INTSET_ENC_INT32 (sizeof(int32_t))
define INTSET_ENC_INT64 (sizeof(int64_t))

可以把这三种类型理解为可以存储16位范围内的整数、32位范围内的整数、
64位范围内的整数。

属性 contents

属性 contents 是一个数组,整数集合的每个元素都存储在了 content 数组里对应的下标位置里,他们按数值从小到大排序存储,且不含重复的整数值。

可以看到 contents 数组被声明为 int8_t 类型,但实际上 contents 数组并不保存任何 int_8 元素,只是作为了一个占位符来使用。到真正读写数据的时候,程序会根据 encoding 值来进行对 contents 数组进行类型转换和指针运算。

整数集合保证了集合中的所有元素只能为同一种 encoding 类型,其 encoding 类型由集合中元素的绝对值最大的那个元素的长度类型决定。

属性 length

属性 length 代表了 contents 数组的长度,保存了这个整数集合的元素数量。

下图为一个 int16_t 类型的整数集合:
在这里插入图片描述

整数集合升级

当我们在一个 encoding 类型为 int16_t 的整数集合添加一个新的整数值的时候,假如这个整数值类型大于int16_t 类型,整数集合将进行升级操作,再将新的整数值添加进整数集合。

具体升级内容:

下面是一个 int16_t 类型的整数集合。

因为有四个元素,加上每个元素占用了16位长度的内存空间,所以已经这个整数集合已经占用了64位内存空间。

当一个新的整数值 66666 要添加进来的时候,因为 66666 已经超过了原本的 int16_t 类型16位最大范围的整数值,它的类型为 int32_t 了,所以此时需要升级整数集合来接纳新的整数值。

在这里插入图片描述

具体升级步骤
1.根据新整数值的类型长度以及集合最终元素的的数量,对底层 contents 数组进行空间分配

新整数值的类型为 int32_t ,所以一个整数值将占32位内存空间,以及集合最终元素的数量为5个,所以程序将重新分配160位的内存空间,整数集合内存空间从原本的64位升级到了160位。

2.升级整数集合原本元素的类型,然后重新排序,保证整数集合的有序性

将原本的整数值的类型进行升级到 int32_t 类型,并将转换后的整数值放置到对应的位置,保证整数值在底层数组里面还是有序性。

3.将新的整数值添加到升级之后的整数集合 contents 数组里面去

最后将整数集合的 encoding 属性值设置为 INTSET_ENC_INT32 , 然后将 66666 这个整数值添加进整数集合。

最终添加完成的整数集合:

在这里插入图片描述

升级优点
1.提升灵活性

因为 C 语言是静态类型的语言,我们会为不同类型的值赋予不同的类型,就必须先强行为值定义类型。这样的话,整数集合的升级策略避免了这种预先正确定义类型,通过一个适当的类型,接受所有新增进来的整数值。

2.节约内存

通过升级策略可以一定达到节约内存的目的,因为可以用占内存较少的类型 int16_t 来存储整数值,当有需要的时候,再来升级类型。

整数集合相关实现

创建集合操作

创建集合具体代码:

intset *intsetNew(void) {   

    // 为整数集合结构分配空间    
    intset *is = zmalloc(sizeof(intset));  
    
    // 设置初始编码    
    is->encoding = intrev32ifbe(INTSET_ENC_INT16); 
    
    // 初始化元素数量    
    is->length = 0;    return is;
}

程序首先调用 zmalloc 函数为整数集合分配内存,分配之后将 encoding 属性值设置为 int16_t 类型,这样可以用最低的内存开局,不用一开始占用很大的内存空间,接着把 length 属性值设置为0,就此创建成功

插入元素操作

插入元素具体代码:

intset *intsetAdd(intset *is, int64_t value, uint8_t *success) {    

    // 计算编码 value 所需的长度            
    uint8_t valenc = _intsetValueEncoding(value);              
    uint32_t pos;   

    // 默认设置插入为成功    
    if (success) *success = 1;    
 
    if (valenc > intrev32ifbe(is->encoding)) {        
        return intsetUpgradeAndAdd(is,value);    
     } else {           
    
        if (intsetSearch(is,value,&pos)){            
            if (success) *success = 0;            
            return is;        
        }       

        is = intsetResize(is,intrev32ifbe(is->length)+1);        

        if (pos < intrev32ifbe(is->length))  intsetMoveTail(is,pos,pos+1);    
    }    

    // 将新值设置到底层数组的指定位置中    
    _intsetSet(is,pos,value);    

    // 增一集合元素数量的计数器    
    is->length = intrev32ifbe(intrev32ifbe(is->length)+1);   

    return is;
}

插入元素的时候,会先计算新元素所需的长度,然后来到代码中的第二个 if 判断是否需要升级操作。

如果新元素的编码类型比原来整数集合的 encoding 值大,那么执行 intsetUpgradeAndAdd 函数进行集合升级操作,之后将升级后的整数集合返回。

不满足升级操作的话,先查找新元素是否在原来的整数集合存在,如果有的话,操作失败,返回原来的整数集合。这里是为了保证整数集合的元素唯一性。没有的话,就会为集合调整新的内存空间,然后将新元素设置进他合适的位置上。

之后为 length 属性值加一,返回新的整数集合,完成了插入操作。

查找元素操作

查找元素具体代码:

static uint8_t intsetSearch(intset *is, int64_t value, uint32_t *pos) {
    int min = 0, max = intrev32ifbe(is->length)-1, mid = -1;
    int64_t cur = -1;
    
    if (intrev32ifbe(is->length) == 0) {
        if (pos) *pos = 0;                 
        return 0;
    } else {                                  
        if (value > _intsetGet(is,intrev32ifbe(is->length)-1)) {
            if (pos) *pos = intrev32ifbe(is->length);
            return 0;
        } else if (value < _intsetGet(is,0)) {
            if (pos) *pos = 0;
            return 0;
        }
    }
    
    while(max >= min) {                
        mid = ((unsigned int)min + (unsigned int)max) >> 1;       
        cur = _intsetGet(is,mid);
        if (value > cur) {
            min = mid+1;
        } else if (value < cur) {
            max = mid-1;
        } else {
            break;
        }
    }
    
    if (value == cur) {                   
        if (pos) *pos = mid;
        return 1;
    } else {
        if (pos) *pos = min;
        return 0;
    }
}

查找元素开始的时候,先对整数集合是否有值进行判断,没值就返回0。有值就通过获取首尾元素的值来判断该元素是否存在集合中,因为整数集合的有序性,通过最大最小值可以直接判断出是否存在。

然后通过数组的二分查找思想的代码,快速查找该元素的位置,最终找到了位置就返回1表示找到并将找到的位置设置到 pos 属性,0表示没找到。

删除元素操作

删除元素具体代码:

intset *intsetRemove(intset *is, int64_t value, int *success) {

    uint8_t valenc = _intsetValueEncoding(value);
    uint32_t pos;
    
    if (success) *success = 0;
    
    if (valenc <= intrev32ifbe(is->encoding) && intsetSearch(is,value,&pos)) {  
        uint32_t len = intrev32ifbe(is->length);
        if (success) *success = 1;
        if (pos < (len-1)) intsetMoveTail(is,pos+1,pos);         
        is = intsetResize(is,len-1);       
        is->length = intrev32ifbe(len-1); 
    }
    return is;
}

删除元素的过程与增加元素的过程有些类似,也是通过先计算需要删除元素的编码类型,只有当元素的编码类型小于等于整数集合的 encoding 的时候(因为大于的话,表示该元素不存在整数集合中),且调用 intsetSearch 函数查找元素存在,才执行具体的删除操作。

具体删除操作的时候,调用 intsetMoveTail 函数将原来这个元素的位置后面的元素往前移动。

最后重新调整集合的内存空间,以及集合的长度完成了最终的删除操作。

总结

通过 Redis 中的整数集合这样一个唯一有序的数据结构,讲述了整数集合在 Redis 中的底层结构、升级操作以及相关实现。

参考:《 Redis设计与实现 》

更多Java后端开发相关技术,可以关注公众号「 红橙呀 」。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值