整数集合
整数集合(intset)是集合键的底层实现之一: 当一个集合只包含整数值元素, 并且这个集合的元素数量不多时, Redis 就会使用整数集合作为集合键的底层实现。
如果我们创建一个只包含五个元素的集合键, 并且集合中的所有元素都是整数值, 那么这个集合键的底层实现就会是整数集合:
redis> SADD numbers 1 3 5 7 9
(integer) 5
redis> OBJECT ENCODING numbers
"intset"
SADD key member [member ...]
时间复杂度:O(N) where N is the number of members to be added.
添加一个或多个指定的member元素到集合的 key中.指定的一个或者多个元素member 如果已经在集合key中存在则忽略.如果集合key 不存在,则新建集合key,并添加member元素到集合key中.
如果key 的类型不是集合则返回错误.
返回值
integer-reply:返回新成功添加到集合里元素的数量,不包括已经存在于集合中的元素.
SMEMBERS key
时间复杂度:O(N) where N is the set cardinality.
返回key集合所有的元素.
该命令的作用与使用一个参数的SINTER 命令作用相同.
返回值
array-reply:集合中的所有元素.
例子
redis> SADD myset "Hello"
(integer) 1
redis> SADD myset "World"
(integer) 1
redis> SADD myset "World"
(integer) 0
redis> SMEMBERS myset
1) "World"
2) "Hello"
redis>
OBJECT subcommand [arguments [arguments ...]]
时间复杂度:O(1) for all the currently implemented subcommands.
OBJECT
命令可以在内部调试(debugging)给出keys的内部对象,它用于检查或者了解你的keys是否用到了特殊编码 的数据类型来存储空间z。 当redis作为缓存使用的时候,你的应用也可能用到这些由OBJECT
命令提供的信息来决定应用层的key的驱逐策略(eviction policies)
OBJECT
支持多个子命令:
- OBJECT REFCOUNT 该命令主要用于调试(debugging),它能够返回指定key所对应value被引用的次数.
- OBJECT ENCODING 该命令返回指定key对应value所使用的内部表示(representation)(译者注:也可以理解为数据的压缩方式).
- OBJECT IDLETIME 该命令返回指定key对应的value自被存储之后空闲的时间,以秒为单位(没有读写操作的请求) ,这个值返回以10秒为单位的秒级别时间,这一点可能在以后的实现中改善
###对象可以用多种方式编码:
- 字符串可以被编码为 raw (常规字符串) 或者int (用字符串表示64位无符号整数这种编码方式是为了节省空间).
- 列表类型可以被编码为ziplist 或者 linkedlist. ziplist 是为了节省较小的列表空间而设计一种特殊编码方式.
- 集合被编码为 intset 或者 hashtable. intset 是为了存储数字的较小集合而设计的一种特殊编码方式.
- 哈希表可以被编码为 zipmap 或者hashtable. zipmap 是专为了较小的哈希表而设计的一种特殊编码方式
- 有序集合被编码为ziplist 或者 skiplist 格式. ziplist可以表示较小的有序集合, skiplist 表示任意大小多的有序集合.
一旦你做了一个操作让redis无法再使用那些节省空间的编码方式,它将自动将那些特殊的编码类型转换为普通的编码类型.
返回值
不同的子命令会对应不同的返回值.
- refcount 和 idletime 返回整数.
- encoding 返回编码类型.
如果你尝试检查的参数缺失,将会返回为空
#例子
redis> lpush mylist "Hello World"
(integer) 4
redis> object refcount mylist
(integer) 1
redis> object encoding mylist
"ziplist"
redis> object idletime mylist
(integer) 10
接下来的例子你可以看到redis一旦不能够实用节省空间的编码类型时编码方式的改变.
redis> set foo 1000
OK
redis> object encoding foo
"int"
redis> append foo bar
(integer) 7
redis> get foo
"1000bar"
redis> object encoding foo
"raw"
整数集合的实现
整数集合(intset)是 Redis 用于保存整数值的集合抽象数据结构, 它可以保存类型为 int16_t
、 int32_t
或者 int64_t
的整数值, 并且保证集合中不会出现重复元素。
每个 intset.h/intset
结构表示一个整数集合:
typedef struct intset {
// 编码方式
uint32_t encoding;
// 集合包含的元素数量
uint32_t length;
// 保存元素的数组
int8_t contents[];
} intset;
contents
数组是整数集合的底层实现: 整数集合的每个元素都是 contents
数组的一个数组项(item), 各个项在数组中按值的大小从小到大有序地排列, 并且数组中不包含任何重复项。
length
属性记录了整数集合包含的元素数量, 也即是 contents
数组的长度。
虽然 intset
结构将 contents
属性声明为 int8_t
类型的数组, 但实际上 contents
数组并不保存任何 int8_t
类型的值 —— contents
数组的真正类型取决于 encoding
属性的值:
- 如果
encoding
属性的值为INTSET_ENC_INT16
, 那么contents
就是一个int16_t
类型的数组, 数组里的每个项都是一个int16_t
类型的整数值 (最小值为-32,768
,最大值为32,767
)。 - 如果
encoding
属性的值为INTSET_ENC_INT32
, 那么contents
就是一个int32_t
类型的数组, 数组里的每个项都是一个int32_t
类型的整数值 (最小值为-2,147,483,648
,最大值为2,147,483,647
)。 - 如果
encoding
属性的值为INTSET_ENC_INT64
, 那么contents
就是一个int64_t
类型的数组, 数组里的每个项都是一个int64_t
类型的整数值 (最小值为-9,223,372,036,854,775,808
,最大值为9,223,372,036,854,775,807
)。
图 6-1 展示了一个整数集合示例:
encoding
属性的值为INTSET_ENC_INT16
, 表示整数集合的底层实现为int16_t
类型的数组, 而集合保存的都是int16_t
类型的整数值。length
属性的值为5
, 表示整数集合包含五个元素。contents
数组按从小到大的顺序保存着集合中的五个元素。- 因为每个集合元素都是
int16_t
类型的整数值, 所以contents
数组的大小等于sizeof(int16_t) * 5 = 16 * 5 = 80
位。
图 6-2 展示了另一个整数集合示例:
encoding
属性的值为INTSET_ENC_INT64
, 表示整数集合的底层实现为int64_t
类型的数组, 而数组中保存的都是int64_t
类型的整数值。length
属性的值为4
, 表示整数集合包含四个元素。contents
数组按从小到大的顺序保存着集合中的四个元素。- 因为每个集合元素都是
int64_t
类型的整数值, 所以contents
数组的大小为sizeof(int64_t) * 4 = 64 * 4 = 256
位。
虽然 contents
数组保存的四个整数值中, 只有 -2675256175807981027
是真正需要用 int64_t
类型来保存的, 而其他的 1
、 3
、 5
三个值都可以用 int16_t
类型来保存, 不过根据整数集合的升级规则, 当向一个底层为 int16_t
数组的整数集合添加一个 int64_t
类型的整数值时, 整数集合已有的所有元素都会被转换成 int64_t
类型, 所以 contents
数组保存的四个整数值都是 int64_t
类型的, 不仅仅是 -2675256175807981027
。
升级
每当我们要将一个新元素添加到整数集合里面, 并且新元素的类型比整数集合现有所有元素的类型都要长时, 整数集合需要先进行升级(upgrade), 然后才能将新元素添加到整数集合里面。
升级整数集合并添加新元素共分为三步进行:
- 根据新元素的类型, 扩展整数集合底层数组的空间大小, 并为新元素分配空间。
- 将底层数组现有的所有元素都转换成与新元素相同的类型, 并将类型转换后的元素放置到正确的位上, 而且在放置元素的过程中, 需要继续维持底层数组的有序性质不变。
- 将新元素添加到底层数组里面。
升级首先要做的是, 根据新类型的长度, 以及集合元素的数量(包括要添加的新元素在内), 对底层数组进行空间重分配。
因为每次向整数集合添加新元素都可能会引起升级, 而每次升级都需要对底层数组中已有的所有元素进行类型转换, 所以向整数集合添加新元素的时间复杂度为 O(N) 。
升级之后新元素的摆放位置
因为引发升级的新元素的长度总是比整数集合现有所有元素的长度都大, 所以这个新元素的值要么就大于所有现有元素, 要么就小于所有现有元素:
- 在新元素小于所有现有元素的情况下, 新元素会被放置在底层数组的最开头(索引
0
); - 在新元素大于所有现有元素的情况下, 新元素会被放置在底层数组的最末尾(索引
length-1
)。
升级的好处
整数集合的升级策略有两个好处, 一个是提升整数集合的灵活性, 另一个是尽可能地节约内存。
提升灵活性
因为 C 语言是静态类型语言, 为了避免类型错误, 我们通常不会将两种不同类型的值放在同一个数据结构里面。
因为整数集合可以通过自动升级底层数组来适应新元素, 所以我们可以随意地将 int16_t
、 int32_t
或者 int64_t
类型的整数添加到集合中, 而不必担心出现类型错误, 这种做法非常灵活。
节约内存
要让一个数组可以同时保存 int16_t
、 int32_t
、 int64_t
三种类型的值, 最简单的做法就是直接使用 int64_t
类型的数组作为整数集合的底层实现。 不过这样一来, 即使添加到整数集合里面的都是 int16_t
类型或者 int32_t
类型的值, 数组都需要使用 int64_t
类型的空间去保存它们, 从而出现浪费内存的情况。
而整数集合现在的做法既可以让集合能同时保存三种不同类型的值, 又可以确保升级操作只会在有需要的时候进行, 这可以尽量节省内存。
如果我们一直只向整数集合添加 int16_t
类型的值, 那么整数集合的底层实现就会一直是 int16_t
类型的数组, 只有在我们要将 int32_t
类型或者 int64_t
类型的值添加到集合时, 程序才会对数组进行升级。
降级
整数集合不支持降级操作, 一旦对数组进行了升级, 编码就会一直保持升级后的状态。
整数集合 API
函数 | 作用 | 时间复杂度 |
---|---|---|
intsetNew | 创建一个新的整数集合。 | O(1) |
intsetAdd | 将给定元素添加到整数集合里面。 | O(N) |
intsetRemove | 从整数集合中移除给定元素。 | O(N) |
intsetFind | 检查给定值是否存在于集合。 | 因为底层数组有序,查找可以通过二分查找法来进行, 所以复杂度为 O(\log N) 。 |
intsetRandom | 从整数集合中随机返回一个元素。 | O(1) |
intsetGet | 取出底层数组在给定索引上的元素。 | O(1) |
intsetLen | 返回整数集合包含的元素个数。 | O(1) |
intsetBlobLen | 返回整数集合占用的内存字节数。 | O(1) |
重点回顾
- 整数集合是集合键的底层实现之一。
- 整数集合的底层实现为数组, 这个数组以有序、无重复的方式保存集合元素, 在有需要时, 程序会根据新添加元素的类型, 改变这个数组的类型。
- 升级操作为整数集合带来了操作上的灵活性, 并且尽可能地节约了内存。
- 整数集合只支持升级操作, 不支持降级操作。