整数集合(intset)是集合键的底层实现之一,当一个集合只包含整数值元素,且这个集合的元素数量不多时,Redis会使用整数集合作为集合键的底层实现。
举个例子,如果我们创建一个只包含五个元素的集合键,且集合中的所有元素都是整数值,那么这个集合键的底层实现就会是整数集合:
6.1 整数集合的实现
整数集合是Redis用于保存整数值的集合抽象数据结构,它可以保存类型为int16_t、int32_t、int64_t的整数值,并且保证集合中不会出现重复元素。
每个intset.h/intset结构表示一个整数集合:
typedef struct intset {
// 编码方式
uint32_t encoding;
// 集合包含的元素数量
uint32_t length;
// 保存元素的数组
int8_t contents[];
} intset;
contents数组是整数集合的底层实现:整数集合的每个元素都是contents数组的一个数组项(item),各个项在数组中按值的大小从小到大有序地排列,且数组中不包含任何重复项。
length属性记录了整数集合包含的元素数量。
虽然intset结构将contents属性声明为int8_t类型的数组,但实际上contents数组不保存任何int8_t类型的值,contents数组的真正类型取决于encoding属性的值:
1.如果encoding属性值为INTSET_ENC_INT16,那么contents就是一个int16_t类型的数组,数组里的每个项都是一个int16_t类型的整数值(最小值为-32768,最大值为32767)。
2.如果encoding属性值为INTSET_ENC_INT32,那么contents就是一个int32_t类型的数组,数组里的每个项都是一个int32_t类型的整数值(最小值为-2147483648,最大值为2147483647)。
3.如果encoding属性值为INTSET_ENC_INT64,那么contents就是一个int64_t类型的数组,数组里的每个项都是一个int64_t类型的整数值(最小值为-9223372036854775808,最大值为9223372036854775807)。
上图中,因为每个集合元素都是int16_t类型的整数值,所以contents数组的大小为sizeof(int16_t)*5=80位。
上图中,因为每个集合元素都是int64_t类型的整数值,所以contents数组的大小为sizeof(int64_t)*4=256位。虽然contents数组保存的四个值中,只有第一个是真正需要用int64_t来保存的,其他三个值都可以用int16_t来保存,但根据整数集合的升级规则,当向一个底层为int16_t的整数集合添加一个int64_t类型的整数值时,整数集合已有的所有元素都会被转换成int64_t类型。
6.2 升级
每当我们将一个新元素添加到整数集合里,且新元素的类型比整数集合现有的元素类型要长时,整数集合需要先进行升级(upgrade),然后才将新元素添加到整数集合里。
升级整数集合并添加新元素共分三步进行:
1.根据新元素类型,扩展整数集合底层数组的空间,并为新元素分配空间。
2.将底层数组现有的所有元素都转换成与新元素相同的类型,并将类型转换后的元素放置到正确的位上,在放置元素的过程中,需要继续维持底层数组的有序性质不变。
2.将新元素添加到底层数组里。
例如有以下整数集合:
上图中,每个元素占用16位空间,共3个元素,所以整数集合底层数组大小为48位:
现在,我们要将类型为int32_t的整数值65535加入整数集合里,由于它比整数集合的元素类型要长,因此在添加前,需要对整数集合进行升级。
升级首先要根据新类型长度、集合元素数量(包括新添加的元素),对底层数组进行空间重分配。
整数集合原有3个元素,加上要添加的1个元素,共需要分配4个元素的空间,因为每个int32_t需要占用32位空间,所以在空间重分配后,底层数组的大小将是128位:
之后就需要将前三个元素由int16_t转换为int32_t,转换过程需维护底层数组的有序性不变。
然后按下图顺序修改contents中的原元素:
然后,因为新增元素65535大小排名第四,所以它将被添加到contents数组的最后位置上:
最后,程序会将整数集合的encoding属性的值从INTSET_ENC_INT16改为INTSET_ENC_INT32,并将length属性的值从3改为4:
因为每次向整数集合添加新元素都可能引起升级,而每次升级都需要对底层数组中已有的元素进行类型转换,所以向整数集合添加新元素的时间复杂度为O(N)。
因为引发升级的新元素的长度总是比整数集合现有的元素的长度要大,所以这个新元素的值要么大于所有现有元素,要么小于所有现有元素,因此,新元素要么会被放置在底层数组的最末尾,要么被放置在最开头。
6.3 升级的好处
6.3.1 提升灵活性
因为C是静态类型语言,为了避免类型错误,我们通常不会将两种不同类型的值放在同一个数组里,例如,int16_t类型的数组里只保存int16_t类型的值。但通过自动升级底层数组来适应新元素,我们可以随意地将int16_t、int32_t、int64_t类型的整数添加到整数集合中,做法非常灵活。
6.3.2 解决内存
要让一个数组可以同时保存int16_t、int32_t、int64_t三种类型的整数,最简单的做法是直接使用int64_t类型的数组作为整数集合的底层实现,但这样一来保存小整数时比较浪费内存。
而整数集合现在的做法能保存三种不同类型的值,仅在必要时进行升级操作,这可以尽量节省内存。
6.4 降级
整数集合不支持降级操作,一旦对数组进行了升级,编码就会一直保持升级后的状态。
举个例子,即使我们删除了整数集合里唯一一个需要用int64_t类型保存的元素,整数集合的编码不变:
6.5 整数集合API
上图中有一个错误,intsetNew的作用是:创建一个新的整数集合。
6.6 重点回顾
1.整数集合是集合键的底层实现之一。
2.整数集合的底层实现为数组,这个数组以有序、无重复的方式保存集合元素,在有需要时,程序会根据新添加元素的类型,改变这个数组的类型。
3.升级操作为整数集合带来了操作上的灵活性,且尽可能地节约了内存。
4.整数集合只支持升级操作,不支持降级操作。