引言
Redis 区分于 memcahced 的一个重要不同就是它具有明确的类型概念,在Redis 的使用过程中,都离不开这些类型的学习,它不仅是 Redis 能力的基础,同时也是一些重要数据结构和算法思想的体现。
本博客总结了五大类型的书面重点,帮助快速梳理和总结 Redis 类型相关的知识点,理论性和记忆性较强。可以作为 Redis 数据类型的学习大纲,建议在实践之前牢记这些知识。
一、Redis简介
在开始之前,回顾一下redis的介绍性知识。
redis的底层语言是C,它是一种高性能键值对、NoSQL内存数据库。可以用作缓存、数据库、消息中间件、分布式锁等。
它的几大优点:
1、性能优秀:内存中运行,读写速度快,支持10W并发QPS。
2、单进程单线程:线程安全,采用IO多路复用机制。
3、丰富的数据结构:五大数据类型,类型检查和命令多态。
4、数据持久化:AOF和RDB,以及混用模式。
5、高可用方案:主从复制、哨兵模式等。
6、适合多种分布式业务场景:消息中间件、分布式锁、消息订阅发布等等。
二、键值存储对象 —— RedisObject
Redis 中使用 redisObject 对象来表示数据库中的 key(始终是字符串对象)和 value(五种对象类型的任意一种)。
每次在 Redis 中新创建一个键值对时,它至少会创建两个对象(键对象、值对象)。
redisObject 包含几个重要的属性:
type 属性记录对象类型——五大类型;
encoding 属性记录对象所使用的编码,即对象的底层实现是怎样的数据结构;
ptr 属性指向对象的底层数据结构,这些数据结构由encoding决定;
refcount 属性记录对象的引用计数,redis 可以改变这个值是否 = 0 来决定是否回收对象内存;同时,它也是实现对象共享机制的基础。
lru 属性记录对象最后一次被命令访问的时间。
三、五大基本类型
一般我们说Redis中的数据类型通常指值对象的类型,因为键始终是字符串对象。
对象类型由 redisObject 中的 type 属性记录,它有以下五种类型,可以使用 TYPE 命令查看对象类型:
TYPE keyname
五大基本类型:
1、String :最基本的类型,二进制安全可以存储包括图片等文件格式,编码方式有raw、int 等。最大能够存储512M。
2、Hash :键值对集合对象,类似Java 中的 Map,但键值都得是字符串。适合存储对象信息,且支持更改某一项属性。
3、List :简单的字符串列表,底层实现是双向链表。按照插入顺序排序,操作分为左右,如 LPUSH、RPUSH等。可以用作消息队列模型。
4、Set :无序、不可重复字符串集合。通过 hashtable实现。增删查都是O(1)复杂度,支持交、并、差集操作。
5、ZSet:有序、不可重复字符串集合。通过 hashtable 和 skiplist 实现。可以根据 Double 类型的 score 从小到大排序。
三、八种编码方式
对象编码表示 Redis 以何种结构结构存储数据,由 redisObject 的 encoding 属性记录。
编码方式并不一定表示某种具体的数据结构,例如 skiplist 编码的 ZSet 对象,底层实际使用了字典+跳跃表的复合结构。
Redis 为何要将数据类型拆分为 type 和 encoding 呢?
对象类型不关联固定的编码,是为了提升redis的灵活性和效率,同时也有性能方面的考虑。
Redis可以根据不同的使用场景为一个对象设置不同的编码,从而优化对象在某一场景下的效率。例如,在列表对象包含元素较少时,使用 ziplist,它比 linkedlist 更节约内存,在内存中以连续的方式保存数据,可以更快的载入到缓存中。但如果 List 中的元素越来越多,就会使用 linkedlist,它更适合保存大量元素的场景。
编码方式有 8 种:
int、embstr、raw、hashtable、linkedlist、ziplist、intset、skiplist
可以使用 OBJECT ENCODING k1 来查看 key 的值对象的编码方式。
它们与类型的关系如下:
String :int、embstr、raw
Hash :ziplist、hashtable
List :ziplist、linkedlist
Set :intset、hashtable
ZSet :ziplist、skiplist
四、字符串
39个字节区分 raw 和 embstr (<=39)编码,embstr 编码是专门用于保存短字符串的一种优化编码方式。
对于某些浮点数字符串,在执行类似 INCRBYFLOAT命令时,会先将类型转化为浮点数,执行运算操作后,再转换回字符串。
编码转换 :int 和 embstr 在某些条件下会转为 raw
- int :在执行某些命令后,使得值不再是一个整数(如APPEND),那么编码会从int转为raw。
embstr:它实际上是只读的,当对embstr执行修改时,Redis 一定会将其转为 raw,再执行修改命令。
五、哈希
Hash 对象的编码可以是 ziplist 或 hashtable。
ziplist:是一种连续的数据结构,类似数组,当以 ziplist 存储键值对时,它们会以 k-v-k-v... 的形式间隔存入,因此同一键值对的key和value总是紧挨着的。
hashtable:意为“字典”,它以数组保存所有键值对,每对键值都被封装为一个叫 entry 的结构,这与Java中的HashMap非常类似。
编码转换:当所有键和值的字符串长度小于64字节,且键值对数量小于512个时,使用ziplist编码;否则,使用hashtable编码。当然,这两个条件的上限是可以修改的。
六、列表
List 对象的编码可以是 ziplist 或 linkedlist。
ziplist:同 hash类型。
linkedlist:是一种双端链表结构,每个链表节点都会包含一个字符串对象,这是一种嵌套字符串行为,字符串对象是Redis五种类型中唯一一种会被其他四种类型对象嵌套的对象。
也就是说,五种类型对象的键和值都只能是字符串相关的数据结构。
编码转换:当所有元素长度都小于64字节,且元素个数小于512个时,使用ziplist;否则,使用 linkedlist。限制条件与hash对象是相同的。
七、集合
Set 对象的编码可以是 intset 或 hashtable。
intset:代表一个整数集合。
hashtable:在实现set时,字典的每个键保存了一个元素,而字典的值全部都为NULL。在 Java 中,也会使用 HashMap 来实现 HashSet,不过,在Java中,为了避免空指针,每个 Entry 的值并不是 null,而是都指向了同一个空的 Object。
编码转换:当所有元素都是整数,且元素个数不超过512个时,使用 intset;否则,使用 hashtable。
八、有序集合
ZSet 对象的编码可以是 ziplist 或 skiplist。
ziplist:每个集合元素使用两个紧挨在一起的节点来保存,前节点保存元素的成员,后节点保存分数score。
skiplist:是一个复合结构——字典 + 跳跃表。它们会引用共享的数据,不会造成重复存储的情况。跳跃表可以按分数顺序存储所有元素,程序可以基于此对有序集合进行范围操作:ZRANK、ZRANGE等;
字典创建了从成员到分数的映射,程序可以用O(1)查找给定成员的分数,如:ZSCORE等。
为什么ZSet 要同时使用跳跃表和字典来实现呢?
单独使用其中一种都达不到同时使用两种结构的性能。可以说这两种结构的结合弥补了有序结构在查找与范围搜索上的先天不足。因此,为了让有序集合在查找和范围操作都尽可能快,Redis 选择了同时使用字典和跳跃表两种数据结构来实现ZSet。
编码的转换:当元素个数小于128,所有元素长度都小于64字节时,使用ziplist;否则使用skiplist编码。
九、Redis 的类型检查和命令多态
Redis中用于操作key的命令可以分为两类:对全部类型都可用和只对特定类型可用。
全部类型可用:DEL、EXPIRE、RENAME、TYPE、OBJECT等。
特定类型可用:SET、GET、APPEND、HDEL、RPUSH、SADD、ZADD等等。
9.1 类型检查的实现
为了保证只有特定类型的key可以执行某些特定命令,在执行特定命令之前,redis会先检查key 所对应的value的类型,然后决定是否执行。这种类型检查是通过redisObject的type属性来实现的。
9.2 多态命令的实现
redis会根据值对象的编码,选择正确的“命令实现代码”来执行命令。
例如,List 的编码有 ziplist 和 linkedlist 两种,Redis 会根据encoding的不同,在执行LLEN命令时,考虑使用ziplistlen函数还是使用listlength函数。
以面向对象的术语来说,LLEN命令是多态的。
十、内存回收与对象共享
Redis 使用引用计数来实现对象内存空间的回收。
每个值对象上都有一个引用计数——refcount,Redis 可以通过增加或减少引用计数来实现内存回收和对象共享。
十一、对象的空转时长
除了type、encoding、ptr、refcount等属性外,redisObject还有一个属性lru。
lru属性记录了对象最后一次被命令访问的时间。
OBJECT IDLETIME k1 // 该命令可以查看键的空转时长,这是通过将当前时间减去值对象的lru时间计算得出的。
当redis设置了maxmemory选项,且内存回收算法设置为volatile-lru或allkeys-lru,那么当内存超过maxmemory时,空转时间较高的那部分key会优先被服务器释放。