整数集合是什么
Redis 中的整数集合 intset 是用来保存多个不重复的整数值且有序的集合抽象数据结构,可以保存类型为 int16-t 、int32-t 或者 int64-t 的整数值。
整数集合应用场景
整数集合在 Redis 中作为了集合 Set 数据结构的底层实现之一。
当一个集合中的元素都是整数值,且元素不多的时候,整数集合就会作为集合 Set 的底层实现。
整数集合结构内容
整数集合结构的具体代码:
typedef struct intset {
// 编码方式
uint32_t encoding;
// 集合包含的元素数量
uint32_t length;
// 保存元素的数组
int8_t contents[];
} intset;
属性 encoding
属性 encoding 代表着整数集合存储整数值时,所使用的存储类型长度。
encoding 的值可以为下面三种常量类型其中之一。
define INTSET_ENC_INT16 (sizeof(int16_t))
define INTSET_ENC_INT32 (sizeof(int32_t))
define INTSET_ENC_INT64 (sizeof(int64_t))
可以把这三种类型理解为可以存储16位范围内的整数、32位范围内的整数、
64位范围内的整数。
属性 contents
属性 contents 是一个数组,整数集合的每个元素都存储在了 content 数组里对应的下标位置里,他们按数值从小到大排序存储,且不含重复的整数值。
可以看到 contents 数组被声明为 int8_t 类型,但实际上 contents 数组并不保存任何 int_8 元素,只是作为了一个占位符来使用。到真正读写数据的时候,程序会根据 encoding 值来进行对 contents 数组进行类型转换和指针运算。
整数集合保证了集合中的所有元素只能为同一种 encoding 类型,其 encoding 类型由集合中元素的绝对值最大的那个元素的长度类型决定。
属性 length
属性 length 代表了 contents 数组的长度,保存了这个整数集合的元素数量。
下图为一个 int16_t 类型的整数集合:
整数集合升级
当我们在一个 encoding 类型为 int16_t 的整数集合添加一个新的整数值的时候,假如这个整数值类型大于int16_t 类型,整数集合将进行升级操作,再将新的整数值添加进整数集合。
具体升级内容:
下面是一个 int16_t 类型的整数集合。
因为有四个元素,加上每个元素占用了16位长度的内存空间,所以已经这个整数集合已经占用了64位内存空间。
当一个新的整数值 66666 要添加进来的时候,因为 66666 已经超过了原本的 int16_t 类型16位最大范围的整数值,它的类型为 int32_t 了,所以此时需要升级整数集合来接纳新的整数值。
具体升级步骤
1.根据新整数值的类型长度以及集合最终元素的的数量,对底层 contents 数组进行空间分配
新整数值的类型为 int32_t ,所以一个整数值将占32位内存空间,以及集合最终元素的数量为5个,所以程序将重新分配160位的内存空间,整数集合内存空间从原本的64位升级到了160位。
2.升级整数集合原本元素的类型,然后重新排序,保证整数集合的有序性
将原本的整数值的类型进行升级到 int32_t 类型,并将转换后的整数值放置到对应的位置,保证整数值在底层数组里面还是有序性。
3.将新的整数值添加到升级之后的整数集合 contents 数组里面去
最后将整数集合的 encoding 属性值设置为 INTSET_ENC_INT32 , 然后将 66666 这个整数值添加进整数集合。
最终添加完成的整数集合:
升级优点
1.提升灵活性
因为 C 语言是静态类型的语言,我们会为不同类型的值赋予不同的类型,就必须先强行为值定义类型。这样的话,整数集合的升级策略避免了这种预先正确定义类型,通过一个适当的类型,接受所有新增进来的整数值。
2.节约内存
通过升级策略可以一定达到节约内存的目的,因为可以用占内存较少的类型 int16_t 来存储整数值,当有需要的时候,再来升级类型。
整数集合相关实现
创建集合操作
创建集合具体代码:
intset *intsetNew(void) {
// 为整数集合结构分配空间
intset *is = zmalloc(sizeof(intset));
// 设置初始编码
is->encoding = intrev32ifbe(INTSET_ENC_INT16);
// 初始化元素数量
is->length = 0; return is;
}
程序首先调用 zmalloc 函数为整数集合分配内存,分配之后将 encoding 属性值设置为 int16_t 类型,这样可以用最低的内存开局,不用一开始占用很大的内存空间,接着把 length 属性值设置为0,就此创建成功
插入元素操作
插入元素具体代码:
intset *intsetAdd(intset *is, int64_t value, uint8_t *success) {
// 计算编码 value 所需的长度
uint8_t valenc = _intsetValueEncoding(value);
uint32_t pos;
// 默认设置插入为成功
if (success) *success = 1;
if (valenc > intrev32ifbe(is->encoding)) {
return intsetUpgradeAndAdd(is,value);
} else {
if (intsetSearch(is,value,&pos)){
if (success) *success = 0;
return is;
}
is = intsetResize(is,intrev32ifbe(is->length)+1);
if (pos < intrev32ifbe(is->length)) intsetMoveTail(is,pos,pos+1);
}
// 将新值设置到底层数组的指定位置中
_intsetSet(is,pos,value);
// 增一集合元素数量的计数器
is->length = intrev32ifbe(intrev32ifbe(is->length)+1);
return is;
}
插入元素的时候,会先计算新元素所需的长度,然后来到代码中的第二个 if 判断是否需要升级操作。
如果新元素的编码类型比原来整数集合的 encoding 值大,那么执行 intsetUpgradeAndAdd 函数进行集合升级操作,之后将升级后的整数集合返回。
不满足升级操作的话,先查找新元素是否在原来的整数集合存在,如果有的话,操作失败,返回原来的整数集合。这里是为了保证整数集合的元素唯一性。没有的话,就会为集合调整新的内存空间,然后将新元素设置进他合适的位置上。
之后为 length 属性值加一,返回新的整数集合,完成了插入操作。
查找元素操作
查找元素具体代码:
static uint8_t intsetSearch(intset *is, int64_t value, uint32_t *pos) {
int min = 0, max = intrev32ifbe(is->length)-1, mid = -1;
int64_t cur = -1;
if (intrev32ifbe(is->length) == 0) {
if (pos) *pos = 0;
return 0;
} else {
if (value > _intsetGet(is,intrev32ifbe(is->length)-1)) {
if (pos) *pos = intrev32ifbe(is->length);
return 0;
} else if (value < _intsetGet(is,0)) {
if (pos) *pos = 0;
return 0;
}
}
while(max >= min) {
mid = ((unsigned int)min + (unsigned int)max) >> 1;
cur = _intsetGet(is,mid);
if (value > cur) {
min = mid+1;
} else if (value < cur) {
max = mid-1;
} else {
break;
}
}
if (value == cur) {
if (pos) *pos = mid;
return 1;
} else {
if (pos) *pos = min;
return 0;
}
}
查找元素开始的时候,先对整数集合是否有值进行判断,没值就返回0。有值就通过获取首尾元素的值来判断该元素是否存在集合中,因为整数集合的有序性,通过最大最小值可以直接判断出是否存在。
然后通过数组的二分查找思想的代码,快速查找该元素的位置,最终找到了位置就返回1表示找到并将找到的位置设置到 pos 属性,0表示没找到。
删除元素操作
删除元素具体代码:
intset *intsetRemove(intset *is, int64_t value, int *success) {
uint8_t valenc = _intsetValueEncoding(value);
uint32_t pos;
if (success) *success = 0;
if (valenc <= intrev32ifbe(is->encoding) && intsetSearch(is,value,&pos)) {
uint32_t len = intrev32ifbe(is->length);
if (success) *success = 1;
if (pos < (len-1)) intsetMoveTail(is,pos+1,pos);
is = intsetResize(is,len-1);
is->length = intrev32ifbe(len-1);
}
return is;
}
删除元素的过程与增加元素的过程有些类似,也是通过先计算需要删除元素的编码类型,只有当元素的编码类型小于等于整数集合的 encoding 的时候(因为大于的话,表示该元素不存在整数集合中),且调用 intsetSearch 函数查找元素存在,才执行具体的删除操作。
具体删除操作的时候,调用 intsetMoveTail 函数将原来这个元素的位置后面的元素往前移动。
最后重新调整集合的内存空间,以及集合的长度完成了最终的删除操作。
总结
通过 Redis 中的整数集合这样一个唯一有序的数据结构,讲述了整数集合在 Redis 中的底层结构、升级操作以及相关实现。
参考:《 Redis设计与实现 》
更多Java后端开发相关技术,可以关注公众号「 红橙呀 」。