5.跳跃表
跳跃表时一种有序数据结构,它通过在每个节点中维持多个指向其他节点的指针,从而达到快速访问节点的目的。
跳跃表支持平均O(logN)、最坏O(N)复杂度的节点查找,还可以通过顺序性操作来批量处理节点。
Redis使用跳跃表作为有序集合键的底层实现之一,如果有序集合包含的元素数量比较多,又或者元素的成员是比较长的字符串时,就会使用跳跃表来作为有序集合键的底层实现。
Redis只在2个地方用到了跳跃表,一个是实现有序集合键,另一个是在集群节点中用作内部数据结构。
1.跳跃表的实现:
Redis的跳跃表由zskiplistNode(表示跳跃表节点)和zskiplist(保存跳跃表节点的相关信息)。
level:记录目前跳跃表内,层数最大的那个节点的层数
length:记录跳跃表的长度,也就是目前包含节点的数量
位于zskiplist结构右边的是4个zskiplistNode结构,该结构包含以下属性:
□ 层:节点中用L1、L2、L3等字样标记节点的各个层。每个层都带有2个属性:前进指针和跨度。当程序从表头向表尾进行遍历时,访问会沿着层的前进指针进行。
□ 后退(backward)指针:节点中用BW字样标记节点的后退指针,它指向位于当前节点的前一个节点。后退指针在程序从表尾向表头遍历时使用。
□ 分值:节点按各自所保存的分值从小到大排列。
□ 成员对象:各个节点中的o1、o2、o3是节点所保存的成员对象。
PS:表头节点和其他节点的构造时一样的,不过表头节点的这些属性都不会被用到。
1、跳跃表节点:
□ 层:节点的level数组可以包含多个元素,每个元素都包含一个指向其他节点的指针,可以通过这些层来加快访问其他节点的速度,层的数量越多,访问其他节点的速度就越快。
每次创建 一个新跳跃表节点的时候,都根据幂次定律(越大的数出现的概率越小)随机生成一个介于1和32之间的值作为level数字大小。这个大小就是层的高度。
□ 前进指针:level[i].forward属性
□ 跨度:level[i].span属性,用于记录2个节点之间的距离。指向NULL的所有前进指针的跨度都为0。遍历操作只使用前进指针就可以完成了,跨度实际上是用来计算排位的:在查找某个节点的过程中,将沿途访问过的所有层的跨度累计起来,结果就是目标节点在跳跃表中的排位。
□ 后退指针:跟可以一次跳过多个节点的前进指针不同,因为每个节点只有1个后退指针,所以每次只能后退至前一个节点。 首先通过tail指针访问表尾节点。
□ 分值和成员:分值是一个double类型的浮点数,所有节点都按分值从小到大来排序
节点对象时一个指针,它指向一个字符串对象,而字符串对象则保存着一个SDS值
在同一个跳跃表中,各个节点保存的成员对象必须是唯一的,但是分值可以是相同的:分值相同的节点将按照成员对象在字典序中的大小来进行排序。
- 跳跃表
1、仅靠多个跳跃表节点就可以组成一个跳跃表,但通过使用一个zskiplist结构来持有这些节点,可以更方便地对整个跳跃表进行处理,如快速访问表头和表尾节点或获取跳跃表的长度等信息。
2、header和tail指针分别指向表头和表尾节点。使用length属性来记录节点的数量。level属性则用于在O(1)复杂度内获取跳跃表中层高最大的那个节点的层数量。
2.重点回顾
- 跳跃表是有序集合的底层实现之一。
- Redis的跳跃表实现由zskiplist和zskiplistNode2个结构组成,其中zskiplist用于保存跳跃表信息(表头节点、表尾节点、长度),而zskiplistNode则用于表示跳跃表节点。
- 每个跳跃表节点的层高都是1至32之间的随机数。
- 在同一个跳跃表,多个节点可以包含相同的分值,但每个节点的成员对象必须是唯一的。
- 跳跃表中的节点按照分值大小进行排序,当分值相同时,节点按照成员对象的大小进行排序。
6.整数集合
整数集合时集合键的底层实现之一,当一个集合只包含整数值元素,并且这个集合的元素数量不多时,就会使用整数集合作为集合键的底层实现。
1.整数集合的实现:
整数集合是Redis用于保存整数值的集合抽象数据结构,它可以保存类型为int16_t、int32_t、int64_t的整数值,并且保证集合中不会出现重复元素。
- contents数组是整数集合的底层实现:整数集合的每个元素都是contents数组的一个数组项,各个项在数组中按值的大小从小到大有序排列,并且不包含任何重复项。
length属性记录了整数集合包含的元素数量,也即是contents数组的长度。
虽然intset结构将contents属性声明为int8_t类型的数组,但实际上contents数组并不保存任何int8_t类型的值,contents数组的真正类型取决于encoding属性的值:
□ 如果encoding属性的值为INT16,那么contents就是一个int16类型的数组。
□ 如果值为INT32,那么就是一个int32类型的数组。
□ 如果值为INT64,那么就是一个int64类型的数组。 - 升级:
1、每当要将一个新元素添加到整数集合里,并且新元素的类型比整数集合现有所有元素的类型都要长时,整数集合需要先进行升级,然后才能将新元素添加到整数集合里。
2、升级整数集合并添加新元素共分为三步进行:
(1)根据新元素的类型,扩展整数集合底层数组的空间大小并为新元素分配空间。
(2)将底层数组现有的所有元素都转换成与新元素相同的类型,并将类型转换后的元素放置到正确的位上,而且在过程中,需要继续维持有序性质不变。
(3)将新元素添加到底层里。 时间复杂度是O(N)
因为引发升级的新元素的长度总是比整数集合现有所有元素的长度都大,所以这个新元素的值要么就大于所有现有元素(放在最末尾),要么就小于所有现有元素(放在最开头)。 - 升级的好处
1、提升灵活性:
因为C是静态类型语言,为了避免类型错误,不会将2种不同类型的值放在同一个数据结构里。但是,因为整数集合可以通过自动升级底层数组来适应新元素,所以可以随意地将int16、int32、int64类型的整数添加到集合中,而不必担心出现类型错误。
2、节约内存:
整数集合现在的做法既可以让集合能同时保存三种不同类型的值,又可以确保升级操作只会在有需要的时候进行,这可以尽量节省内存。 - 降级
整数集合不支持降级操作,一旦对数组进行了升级,编码就会一直保持升级后的状态。
2.重点回顾
- 整数集合是集合键的底层实现之一。
- 整数集合的底层实现为数组,这个数组以有序、无重复的方式保存集合元素,在有需要时,会根据新添加元素的类型,改变这个数组的类型。
- 升级操作作为整数集合带来了操作上的灵活性,并且尽可能地节约了内存。
- 整数集合只支持升级操作,不支持降级操作。
7.压缩列表
压缩列表是列表键和哈希键的底层实现之一。当一个列表键只包含少量列表项,并且每个列表项要么就是小整数值,要么就是长度比较短的字符串,那么Redis就会使用压缩列表来做列表键的底层实现。
当一个哈希键只包含少量键值对,并且每个键值对的键和值要么就是小整数值,要么就是长度比较短的字符串,那么Redis就会使用压缩列表来做哈希键的底层实现。
1.压缩列表的构成
1、压缩列表是为了节约内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型数据结构。一个压缩列表可以包含任意多个节点,每个节点可以保存一个字节数组或者一个整数值。
2.压缩列表节点的构成:
每个节点都由previous_entry_length、encoding、content三个部分组成
□ previous_entry_length
该属性以字节为单位,记录了压缩列表中前一个节点的长度,长度可以是1字节或5字节:如果前一个节点的长度小于254字节,那么为1字节;如果长度大于等于254字节,那么为5字节,其中第一字节会被设置为0×FE(十进制254),而之后的4个字节则用于保存前一节点的长度。
可以通过指针运算,根据当前节点的起始地址来计算出前一个节点的起始地址。
压缩列表的从表尾向表头遍历操作就是使用这一原理实现的,只要拥有了一个指向某个节点起始地址的指针,那么通过这个指针以及这个节点的该属性,就可以一直向前一个节点回溯,最终到达压缩列表的表头节点。
□ encoding
该属性记录了节点的content属性所保存数据的类型以及长度
一字节、两字节、五字节长,值的最高位为00、01、10的是字节数组编码:表示节点的content属性保存着字节数组,数组的长度由编码除去最高2位之后的其他位记录。
一字节长,值的最高位以11开头的是整数编码:表示保存着整数值,类型和长度由除去最高2位之后的其他位记录。
□ content
节点的content属性负责保存节点的值,节点值可以是一个字节数组或整数,值的类型和长度由encoding属性决定
3.连锁更新
- 扩展e1会引发e2的扩展,扩展e2又会引发e3的扩展,为了让每个节点的previous_entry_length属性都符合压缩列表对对节点的要求,需要不断对压缩列表执行空间重分配操作。
- 除了添加新节点可能会引发连锁更新之外,删除节点也可能会引发连锁更新。
- 因为连锁更新在最坏情况下需要对压缩列表执行N次空间重分配操作,而每次空间重分配的最坏复杂度时O(N),所以连锁更新的最坏复杂度为O(n²)
- 尽管连锁更新的复杂度较高,但它真正造成性能问题的几率是很低的:
首先,压缩列表里要恰好有多个连续的、长度介于250-253字节之间的节点,连锁更新才有可能被引发。其次,只要被更新的节点数量不多,就不会对性能造成任何影响。
4.重点回顾
- 压缩列表是一种为节约内存而开发的顺序型数据结构。
- 压缩列表被用作列表键和哈希键的底层实现之一。
- 压缩列表可以包含多个节点,每个节点可以保存一个字节数组或整数值。
- 添加新节点到压缩列表,或从压缩列表中删除节点,可能会引发连锁更新操作,但这种操作出现的几率并不高。
8.对象
Redis并没有直接使用这些数据结构来实现键值对数据库,而是基于这些数据结构创建了一个对象系统,这个系统包含字符串对象、列表对象、哈希对象、集合对象和有序集合对象这5种类型的对象。
通过这5种不同类型的对象,Redis可以在执行命令之前,根据对象的类型来判断一个对象是否可以执行给定的命令。另一个好处是,可以针对不同的使用场景,为对象设置多种不同的数据结构实现,从而优化对象在不同场景下的使用效率。
Redis的对象系统还实现了基于引用计数计数的内存回收机制,当程序不再使用某个对象的时候,这个对象所占有的内存就会被自动释放;另外,还通过该计数实现了对象共享机制,可以通过让多个数据库键共享同一个对象来节约内存。
Redis的对象还带有访问时间记录信息,可以用于计算数据库键的空转时长,在服务器启用了maxmemory功能的情况下,空转时长较大的那些键可能会优先被服务器删除。
1.对象的类型与编码
-
类型
1、对象的type属性记录了对象的类型。
2、对于保存的键值对来说,键总是一个字符串对象,而值可以是任意对象中的一种。
3、当我们对一个数据键执行TYPE命令时,返回的结果时对应的值对象的类型。 -
编码和底层实现
1、对象的ptr指针指向对象的底层实现数据结构,而这些数据结构由对象的encoding属性决定。每种类型的对象都至少使用了2种不同的编码。
通过encoding属性来设定对象所使用的编码,而不是为特定类型的对象关联一种固定的编码,极大地提升了Redis的灵活性和效率。
2.字符串对象
- 字符串对象的编码可以是int,raw或者embstr。
- 如果一个字符串对象保存的是整数值,并且这个整数值可以用long类型来表示,那么字符串对象会将整数值保存在字符串对象结果的ptr属性里面,并将编码设置为int。
- 如果保存的是一个字符串值,并且长度大于32字节,那么将使用SDS来保存,编码设置为raw。
- 如果保存的是一个字符串值,并且长度小于等于32字节,那么将使用embstr编码来保存。
embstr编码时专门用于保存短字符串的一种优化编码方式,和raw一样,都使用redisObject和sdshdr结构来表示字符串对象,但raw编码会调用2次内存分配函数来分别创建2个对象,而embstr编码则调用1次来内存分配函数来分配一块连续的空间。
使用embstr编码有以下好处:
□ 创建字符串对象所需的内存分配次数从raw编码的2次降低为1次。
□ 释放对象只需要调用一次内存释放函数,而raw编码需要2次
□ 所有数据都保存在一块连续的内存里面,所以能够更好地利用缓存带来的优势 - 可以用long double类型表示的浮点数在Redis中也是作为字符串值来保存的。如果要保存一个浮点数到字符串对象里面,那么会将这个浮点数转换成字符串值,然后再保存。
在有需要的时候,会将字符串值转换回浮点数值,执行某些操作,然后再将浮点数值转换回字符串值。 - 编码的转换:
1、对于int编码的字符串对象来说,如果向对象执行了一些命令,使得这个对象保存的不再是整数值,而是一个字符串值,那么编码将从int变为raw。
2、Redis没有为embstr编码的字符串对象编写任何相应的修改程序,所以实际上是只读的。当对embstr编码的字符串对象执行任何修改命令时,会先将编码从embstr转换成raw,然后再执行修改命令。 - 字符串命令的实现:
1、因为字符串键的值为字符串对象,所以所有命令都是针对字符串对象来构建的。
3.列表对象
列表对象的编码可以是ziplist(使用压缩列表作为底层实现,每个节点保存了一个列表元素)或linkedlist(使用双端链表作为底层实现,每个节点都保存了一个字符串对象,而每个字符串对象都保存了一个列表元素)。 PS:linkedlist编码的列表对象在底层的双端链表结构中包含了多个字符串对象,字符串对象是Redis5种类型的对象中唯一一种会被其他4种类型对象嵌套的对象。
- 编码转换:
1、当列表可以同时满足以下2个条件时,列表对象使用ziplist编码:
□ 列表对象保存的所有字符串元素的长度都小于64字节。
□ 保存的元素数量小于512个,不能满足这2个条件的列表对象需要使用linkedlist编码。
4.哈希对象
哈希对象的编码可以是ziplist()或hashtable。
ziplist编码的哈希对象使用压缩列表作为底层实现,每当有新的键值对要加入到哈希对象时,会将保存了键的压缩列表节点推入到压缩列表表尾,然后再将保存了值的压缩列表节点推入表尾。因此:保存了同一键值对的2个节点总是紧挨在一起。
hashtable编码的哈希对象使用字典作为底层实现,哈希对象中的每个键值对都使用一个字典键值对来保存。字典的每个键和值都是一个字符串对象。
- 编码转换:
1、当哈希对象可以同时满足以下2个条件时,使用ziplist编码:
□ 保存的所有键值对的键和值的字符串长度都小于64字节。
□ 保存的键值对数量小于512个。不能满足这2个条件的哈希对象需要使用hashtable编码。
5.集合对象
集合对象的编码可以是intset(使用整数集合作为底层实现)或者hashtable(使用字典作为底层实现,字典的每个键都是字符串对象,字典的值全部被设置为NULL)。
- 编码的转换:
当集合对象可以同时满足以下条件时,对象使用intset编码:
□ 保存的元素值都是整数值
□ 保存的元素数量不超过512个,不能满足这2个条件的集合对象需要使用hashtable编码
6.有序集合对象
有序集合的编码可以是ziplist(使用压缩列表作为底层实现,每个集合元素使用2个紧挨在一起的压缩列表节点来保存,第一个节点保存元素的成员,而第二个元素则保存元素的分值,集合元素按分值从小到大进行排序)或者skiplist(使用zset结构作为底层实现,一个zset结构同时包含一个字典和一个跳跃表)。
zset结构中的zsl跳跃表按分值从小到大保存了所有集合元素,每个节点都保存了一个集合元素:object属性保存了元素的成员,而score属性则保存了元素的分值。通过这个跳跃表,可以对有序集合进行范围型操作。
zset结构中的dict字典为有序集合创建了一个从成员到分值的映射,字典中的每个键值对都保存了一个集合元素:字典的键保存了元素的成员,而字典的值则保存了元素的分值。
有序集合每个元素的成员都是一个字符串对象,而每个元素的分值都是一个double类型的浮点数。PS:虽然zset结构同时使用跳跃表和字典来保存有序集合元素,但这2种数据结构都会通过指针来共享相同元素的成员和分值,也不会因此而浪费额外的内存。
为什么有序集合需要同时使用跳跃表和字典来实现? 答:因为在性能上对比同时使用会有所降低。如果只使用字段来实现,那么虽然以O(1)复杂度查找成员的分值这一特性会被保留;但是,字典以无序的方式来保存集合元素。 如果只使用跳跃表来实现,那么根据成员查找分值这一操作的复杂度将从O(1)上升为O(logN).
- 编码的转换:
当有序集合对象可以同时满足一下2个条件时,对象使用ziplist编码:
□ 有序集合保存的元素数量小于128个
□ 保存的所有元素成员的长度都小于64字节,不能满足的将使用skiplist编码。
7.类型检查与命令多态
Redis中用于操作键的命令基本上可以分为2种类型。其中一种命令可以对任何类型的键执行,比如DEL、EXPIRE、RENAME、TYPE、OBJECT命令等。而另一种命令只能对特定特性的键执行。
- 类型检查的实现
1、为了确保只有指定类型的键可以执行某些特定的命令,在执行一个类型特定的命令之前,会先检查输入键的类型是否正确。
2、类型特定命令所进行的类型检查是通过redisObject结构的type属性来实现的 - 多态命令的实现
1、除了会根据值对象的类型来判断键是否能够执行指定命令之外,还会根据值对象的编码方式,选择正确的命令实现代码来执行命令。
2、借用面向对象方面的术语来说,可以认为LLEN命令时多态的,只要执行LLEN命令的是列表键,那么无论值对象使用的是ziplist编码还是linkedlist编码,命令都可以正常执行。
8.内存回收
- Redis在自己的对象系统中构建了一个引用计数计数实现的内存回收机制,通过这一机制,可以通过跟踪对象的引用计数信息,在适当的时候自动释放对象并进行内存回收。
- 每个对象的引用计数信息由redisObject结构的refcount属性记录。
9.对象共享
- 除了用于实现应用计数内存回收机制外,对象的引用计数属性还带有对象共享的作用。
- 在Redis中,让多个键共享同一个值对象需要执行以下2个步骤:
1、将数据库键的值指针指向一个现有的值对象。
2、将被共享的值对象的引用计数+1. - 目前来说,Redis会在初始化服务器时,创建10000个字符串对象,这些对象包含了从0到9999的所有整数值。 PS:创建共享字符串的数量可以通过修改redis.h/REDIS_SHARED_INTEGERS常量来修改。
- 这些共享对象不单单只有字符串键可以使用,哪些在数据结构中嵌套了字符串对象的对象也可以使用。
- 尽管共享更复杂的对象可以节约更多的内存,但受到CPU时间的限制,Redis只对包含整数值的字符串对象进行共享。
10.对象的空转时长
- 除了type、encoding、ptr、refcount外,redisObject结构包含的最后一个属性为lru属性,该属性记录了对象最后一次被命令程序访问的时间。
- OBJECT IDLETIME命令可以打印出给定键的空转时长,这一空转时长就是通过将当前时间减去键的值对象的lru时间计算得出的。这个指令不会修改值对象的lru属性。
- 如果服务器打开了maxmemory选项,并且服务器用于回收内存的算法为volatile-lru或者allkeys-lru,那么当占有的内存数超过了maxmemory选项所设置的上限值时,空转时长较高的那部分键会优先被服务器释放,从而回收内存。
11.重点回顾
- Redis数据库中的每个键值对的键和值都是一个对象。
- Redis共有字符串、列表、哈希、集合、有序集合5种类型的对象,每种类型的对象至少都有2种或以上的编码方式,不同的编码可以在不同的使用场景上优化对象的使用效率。
- 服务器在执行某些命令之前,会先检查给定键的类型能否执行指定的命令,而检查一个键的类型就是检查键的值对象的类型。
- Redis的对象系统带有引用计数实现的内存回收机制,当一个对象不再被使用时,该对象所占有的内存就会被自动释放。
- Redis会共享值为0-9999的字符串对象。
- 对象会记录自己的最后一次被访问的时间,这个时间可用于计算对象的空转时间。