hbase---跳跃表（skiplist）

最新推荐文章于 2023-05-23 20:58:19 发布

souy_c

最新推荐文章于 2023-05-23 20:58:19 发布

阅读量1.3k

点赞数

分类专栏： Hbase 文章标签： hbase 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyq6239075/article/details/108680621

版权

Hbase 专栏收录该内容

11 篇文章 5 订阅

订阅专栏

跳跃表（SkipList）是一种能高效实现插入、删除、查找的内存数据结构，这些操作的期望复杂度都是O（logN）。与红黑树以及其他的二分查找树相比，跳跃表的优势在于实现简单，而且在并发场景下加锁粒度更小，从而可以实现更高的并发性。正因为这些优点，跳跃表广泛使用于KV数据库中，诸如Redis、LevelDB、HBase都把跳跃表作为一种维护有序数据集合的基础数据结构。

众所周知，链表这种数据结构的查询复杂度为O（N），这里N是链表中元素的个数。在已经找到要删除元素的情况下，再执行链表的删除操作其实非常高效，只需把待删除元素前一个元素的next指针指向待删除元素的后一个元素即可，复杂度为O（1），但问题是，链表的查询复杂度太高，因为链表在查询的时候，需要逐个元素地查找。如果链表在查找的时候，能够避免依次查找元素，那么查找复杂度将降低。而跳跃表就是利用这一思想，在链表之上额外存储了一些节点的索引信息，达到避免依次查找元素的目的，从而将查询复杂度优化为O（logN）。将查询复杂度优化之后，自然也优化了插入和删除的复杂度。

1.定义

如图所示，跳跃表的定义如下：

·跳跃表由多条分层的链表组成（设为S0，S1，S2，...，Sn），例如图中有6条链表。

·每条链表中的元素都是有序的。

·每条链表都有两个元素：+∞（正无穷大）和-∞（负无穷大），分别表示链表的头部和尾部。

·从上到下，上层链表元素集合是下层链表元素集合的子集，即S1是S0的子集，S2是S1的子集。

·跳跃表的高度定义为水平链表的层数。

在跳跃表中查找一个指定元素的流程比较简单。上图以左上角元素（设为currentNode）作为起点查询值5：

·如果发现currentNode后继节点的值小于等于待查询值，则沿着这条链表向后查询，否则，切换到当前节点的下一层链表。

·继续查询，直到找到待查询值为止（或者currentNode为空节点）为止。

2.插入

跳跃表的插入算法要复杂一点。如下图所示。首先，需要按照上述查找流程找到待插入元素的前驱和后继；然后，按照如下随机算法生成一个高度值：

// p是一个(0,1)之间的常数，一般取p=1/4或者1/2

public void randomHeight(double p){

int height = 0 ;

while(random.nextDouble() < p) height ++ ;

return height + 1;

}

最后，将待插入节点按照高度值生成一个垂直节点（这个节点的层数正好等于高度值），之后插入到跳跃表的多条链表中去。假设height=randomHeight（p），这里需要分两种情况讨论：

·如果height大于跳跃表的高度，那么跳跃表的高度被提升为height，同时需要更新头部节点和尾部节点的指针指向。

·如果height小于等于跳跃表的高度，那么需要更新待插入元素前驱和后继的指针指向。

4.删除

删除操作和插入操作有点类似，不再细说。

5.复杂度分析

这里，我们一起来评估跳跃表的时间和空间复杂度。

性质1　一个节点落在第k层的概率为P^(k-1)。

这条性质比较简单，如果randomHeight（p）函数返回的高度为k，那么必须要求前面（k-1）个随机数都小于p，（k-1）个概率为p的独立事件概率相乘，因此高度为k的概率为P^(k-1)。性质2　一个最底层链表有n个元素的跳跃表，总共元素个数为:

其中k为跳跃表的高度。

由于性质1，一个元素落在第k层概率为p^(k-1)，则第k层插入的元素个数为n×p^(k-1)，所有k相加得到上述公式。当p <= 1/2时，上述公式小于O（2n），所以空间复杂度为O（n）。

性质3　跳跃表的高度为O（logn）。

考虑第层，落在这层的期望节点数为

当n较大时，该层节点数为0，所以层数在O（logn）这个数据级上。

性质4　跳跃表的查询时间复杂度为O（logN）。

查询时间复杂度关键取决于从最左上角到达最底层走过的横向步数和纵向步数之和。我们反过来考虑这个过程，也就是从最底层达到最左上角s走过的期望步数（包括横向步数）。对第k层第j列节点来说，它只可能从以下两种情况跳过来：

·第k-1层第j列节点往上走，跳到第k层第j列节点。根据randomHeight（p）函数定义，往上走的概率为p。

·第k层第j+1列节点往左走，跳到第k层第j列节点。这种情况，第k层第j+1列节点已经是垂直节点的最高点，也就是说，这个节点已经不能往上走，只能往左走。根据randomHeight（p）函数定义，往左走的概率为（1-p）。

设Ck为往上跳k层的期望步数（包括纵向步数和横向步数），那么有：

由于高度k为O（logN）级别，所以，查询走过的期望步数也为O（logN）。

性质5　跳跃表的插入/删除时间复杂度为O（logN）。

由插入/删除的实现可以看出，插入/删除的时间复杂度和查询时间复杂度相等，故性质5成立。

因此，跳跃表的查找、删除、插入的复杂度都是O（logN）。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

souy_c CSDN认证博客专家 CSDN认证企业博客

码龄12年

136: 原创

5万+: 周排名

144万+: 总排名

38万+: 访问

: 等级

3365: 积分

120: 粉丝

187: 获赞

39: 评论

886: 收藏

私信

关注

热门文章

分类专栏

DAOS 9篇
ETCD 20篇
Hbase 11篇
hadoop 1篇
linux 15篇
fedora，centos 5篇
ceph 1篇
btrfs 3篇
存储 52篇
python 2篇
数据结构 12篇
java 8篇
随笔 1篇
go 21篇

最新评论

深入理解GO语言：GC原理及源码分析
疯狂的程需猿: 都不往下看了，开头就错了，你要明白一个重点：栈上，寄存器对象的赋值（插入，删除）不能 hook的
ZIP压缩算法详细分析及解压实例解释
科学小组(组员1): 博主写的很详细，静下心来看很容易看明白。
纠删码(Erasure Code)及其演进LRC（Locally Repairable Codes）原理讲解
屁宝Sault: LRC校验块和数据块的关系是不是写错了，你这样写的话D1，D2同时坏了是没法修复的
深入理解GO语言：map结构原理和源码分析
yushimengmeng: 如果对业务不太稳定, 可能会有突增流量的业务来说, map的bucket如果只增不减, 是否会造成内存居高不下. 尽管bucket是可以复用的.
深入理解GO语言：map结构原理和源码分析
yushimengmeng: 1、map会自动判断kv是否过大, 如果sizeof(kv)过大, 那么map存放的是kv的指针. 2、map扩容时会增加bucket数量,缩容时不会自动减少bucket数量. 我有个不太确定的点是, 缩容后kv都标记为empty的bucket是否放在extra中??????

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。