Redis 本身是一个 Map,其中所有的数据都是采用 key:value 的形式存储
这里的数据类型主要是指存储的,也即是 value 的数据类型,key 的数据类型永远都是 String
redis 中 value 使用的数据结构有:
-
String
:字符串类型 -
List
:列表类型 -
Hash
:哈希表类型 -
Set
:无序集合类型 -
sorted set:有序集合类型
下面我们来一个一个分别来了解一下:
一、String:字符串类型
redis 是使用 C 语言开发,但 C 中并没有 String 类型,只能使用指针或字符数组的形式表示一个字符串,所以 redis 设计了一种简单动态字符串(SDS[Simple Dynamic String])作为底层实现。
这个 SDS 的内部结构更像是一个 ArrayList,内部维护着一个字节数组,并且在其内部预分配了一定的空间,以减少内存的频繁分配。
Redis 的内存分配机制是这样:
当字符串的长度小于 1MB 时,每次扩容都是加倍现有的空间。
如果字符串长度超过 1MB 时,每次扩容时只会扩展 1MB 的空间。
这样既保证了内存空间够用,还不至于造成内存的浪费,字符串最大长度为 512MB。
上图就是字符串的基本结构,其中 content 里面保存的是字符串内容,0x\0 作为结束字符不会被计算 len 中。
SDS 的数据结构:
capacity 和 len 两个属性都是泛型,为什么不直接用 int 类型?因为 Redis 内部有很多优化方案,为更合理的使用内存,不同长度的字符串采用不同的数据类型表示,且在创建字符串的时候 len 会和 capacity 一样大,不产生冗余的空间,所以 String 值可以是字符串、数字(整数、浮点数) 或者二进制。
redis 中 SDS 和 C 语言字符串对比:
1)C 语言中的字符串,遇到'\0'则结尾,用长度 N+1 的数组维护长度为 N 的字符串。
Redis 的 SDS 是:
len 表示字符串的长度;
free 表示空闲的,未分配的空间;
buffer 数组是真正的字符串,并且以'\0'结尾。
2)C 字符串并不记录自身的长度信息,获取一个 C 字符串的长度,必须遍历整个字符串,对遇到的字符进行计数,直到遇到代表字符串结尾的空字符为止,复杂度为 O(n)
SDS 在 len 属性中记录了 SDS 的本身长度,复杂度为 O(1)
3)C 字符串不记录自身长度容易造成缓冲区溢出
SDS 的空间分配策略完全杜绝了发生缓冲区的可能性:当 SDS API 需要对 SDS 进行修改时,API 会先检查 SDS 的空间是否满足修改所需的要求,如果不满足的话,API 会自动将 SDS 的空间扩展至执行修改所需的大小,然后才执行实际的修改操作,所以使用 SDS 既不需要修改 SDS 的空间大小,也不会出现前面所说的缓冲区溢出问题
4)减少修改字符串时带来的内存重分配次数
C 字符串的长度和底层数组的长度之间存在这种关联性,所以每次增长或者缩短一个 C 字符串,总要对保存 C 字符串的数组进行一次内存重分配操作
在 SDS 中,buf 数组的长度不一定就是字符数量加一,数组里面可以包含为使用的字节,而这些字节的数量就由 SDS 的 free 属性记录。通过未使用空间,SDS 实现了空间预分配和惰性空间释放两种优化策略
5)二级制安全
C 字符串必须符合某种编码,并且除了字符串的末尾之外,字符串里面不能包含空字符
SDS 的 API 都是二进制安全的,所有 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组里的数据
6)C 兼容所有字符串函数
SDS 兼容部分 C 字符串函数