Redis学习——跳跃表

最新推荐文章于 2024-04-20 14:04:05 发布

damanchen

最新推荐文章于 2024-04-20 14:04:05 发布

阅读量277

点赞数

分类专栏： Redis 文章标签： Redis 数据库跳跃表

本文链接：https://blog.csdn.net/damanchen/article/details/88898746

版权

Redis 专栏收录该内容

29 篇文章 17 订阅

订阅专栏

有序集合的“跳跃列表”

一、跳跃表的原理与特点
二、跳跃表
三、常见问题

Redis 的 zset 是一个复合结构，一方面它需要一个 hash 结构来存储 value 和 score 的对应关系，另一方面需要提供按照 score 来排序的功能，还需要能够指定 score 的范围来获取 value 列表的功能，这就需要另外一个结构「跳跃列表」。

一、跳跃表的原理与特点

基本上，跳跃列表是对有序的链表增加上附加的前进链接，增加是以随机化的方式进行的，所以在列表中的查找可以快速的跳过部分列表(因此得名)。
所有操作都以对数随机化的时间进行。
跳跃列表是按层建造的。底层是一个普通的有序链表。每个更高层都充当下面列表的"快速跑道"，这里在层 i 中的元素按某个固定的概率 p 出现在层 i+1 中。
平均起来，每个元素都在 1/(1-p) 个列表中出现，而最高层的元素(通常是在跳跃列表前端的一个特殊的头元素)在 O(log1/pn) 个列表中出现。
要查找一个目标元素，起步于头元素和顶层列表，并沿着每个链表搜索，直到到达小于或的等于目标的最后一个元素。
跳跃链表是一种随机化数据结构，基于并联的链表，其效率可比拟于二叉查找树(对于大多数操作需要O(log n)平均时间)，并且对并发算法友好。

二、跳跃表

为了更好的理解跳跃表，我们首先看一下有序表的实现

1、有序表的搜索

考虑一个有序表：
在这里插入图片描述
从该有序表中搜索元素 < 23, 43, 59 > ，需要比较的次数分别为 < 2, 4, 6 >，总共比较的次数为 2 + 4 + 6 = 12 次。有没有优化的算法吗? 链表是有序的，但不能使用二分查找。类似二叉搜索树，我们把一些节点提取出来，作为索引。得到如下结构：
在这里插入图片描述

这里我们把 < 14, 34, 50, 72 > 提取出来作为一级索引，这样搜索的时候就可以减少比较次数了。
我们还可以再从一级索引提取一些元素出来，作为二级索引，变成如下结构：
在这里插入图片描述
这里元素不多，体现不出优势，如果元素足够多，这种索引结构就能体现出优势来了。
这基本上就是跳表的核心思想，其实也是一种通过空间来换取时间的一个算法，通过在每个节点中增加了向前的指针，从而提升查找的效率。

2、跳跃表

下面的结构是就是跳表：
其中 -1 表示 INT_MIN，链表的最小值，1 表示 INT_MAX，链表的最大值。
在这里插入图片描述
跳表具有如下性质：
(1) 由很多层结构组成
(2) 每一层都是一个有序的链表
(3) 最底层(Level 1)的链表包含所有元素
(4) 如果一个元素出现在 Level i 的链表中，则它在 Level i 之下的链表也都会出现。
(5) 每个节点包含两个指针，一个指向同一链表中的下一个元素，一个指向下面一层的元素。

3、跳跃表的搜索

在这里插入图片描述
例子：查找元素 117
(1) 比较 21，比 21 大，往后面找
(2) 比较 37, 比 37大，比链表最大值小，从 37 的下面一层开始找
(3) 比较 71, 比 71 大，比链表最大值小，从 71 的下面一层开始找
(4) 比较 85，比 85 大，从后面找
(5) 比较 117，等于 117，找到了节点。

三、常见问题

1、每个zskiplistNode的“层高”是怎么确定的？？？“层高”和存储的数据分值之间有什么关系？

每次创建一个新跳跃表节点的时候，程序根据幂次定律(power law，越大的数出现的概率越小)随机生成一个介于1和32之间的值作为level数组的大小，这个大小就是层的“高度”；正是因为随机的层高，才构成了“跳跃表”。

“层高”和存储的数据之间没有关系，“层高”是根据幂次定律随机生成的，越大的数出现的概率越小。首先 L0 层肯定是 100% 的概率了，L1 层只有 50% 的概率，L2 层只有 25% 的概率，L3 层只有 12.5% 的概率，一直随机到最顶层 L31 层。绝大多数元素都过不了几层，只有极少数元素可以深入到顶层。列表中的元素越多，能够深入的层次就越深，能进入到顶层的概率就会越大。

2、在进行查找的过程中，怎么知道“走那条线路”，怎么知道从下一个节点的“最高那层”走，为什么不能是比较低的层呢？其他没走的指针有什么用呢？？

定义的遍历方式就是这样，因为节点是按照各自所保存的分值从小到大排序，所以在进行路线选择的时候就知道要不要走“下面的线路”，如果当前节点的分值比目标节点小，就会走之前走过的那层的下一层（降一层），到达下一个节点，再进行判断；如果当前节点和目标节点的分值一致，说明达到“目的地”，完成查找。

其他没走过的指针在下次查找其他节点的时候可能会用到，正是因为这样才构成了跳跃表。
在这里插入图片描述

如图所示，我们要定位到那个紫色的 kv，需要从 header 的最高层开始遍历找到第一个节点 (最后一个比「我」小的元素（“我”是指哪个？？“我”就是指紫色的kv的分值）)，然后从这个节点开始降一层再遍历找到第二个节点 (最后一个比「我」小的元素)，然后一直降到最底层进行遍历就找到了期望的节点 (最底层的最后一个比我「小」的元素)。
在这里插入图片描述

3、节点按各自所保存的分值从小到大排列，那每次新插入数据是不是都得重新调整指针？？

是的。首先我们在搜索合适插入点的过程中将「搜索路径」摸出来了，然后就可以开始创建新节点了，创建的时候需要给这个节点随机分配一个层数，再将搜索路径上的节点和这个新节点通过前向后向指针串起来。如果分配的新节点的高度高于当前跳跃列表的最大高度，就需要更新一下跳跃列表的最大高度。

4、元素排名是怎么算出来的？

在这里插入图片描述
Redis 在 skiplist 的 forward 指针上进行了优化，给每一个 forward 指针都增加了 span 属性，span 是「跨度」的意思，表示从前一个节点沿着当前层的 forward 指针跳到当前这个节点中间会跳过多少个节点。累加的span数值越大，排名就越后。

5、仅靠多个跳跃表节点就可以组成一个跳跃表，但是为什么还要通过使用zskiplist结构来持有这些节点呢？

在这里插入图片描述
有了zskiplist结构之后，程序可以更方便地对整个跳跃表进行处理，比如快速访问跳跃表的表头节点和表尾节点，或者快速地获取跳跃表节点的数量（也即是跳跃表的长度）等信息。

参考：
《Redis深度历险：核心原理和应用实践》和《Redis设计与实现》
https://blog.csdn.net/qpzkobe/article/details/80057046
https://blog.csdn.net/universe_ant/article/details/51134020

damanchen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Redis学习——跳跃表

有序集合的“跳跃列表”跳跃表的原理与特点新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入跳跃表的原理与特点你...
复制链接

扫一扫