跳表(skip list) 对应的是平衡树(AVL Tree),是一种 插入/删除/搜索 都是 O(log n) 的数据结构。它最大的优势是原理简单、容易实现、方便扩展、效率更高。因此在一些热门的项目里用来替代平衡树,如 redis, leveldb 等。
跳表的基本思想
首先,跳表处理的是有序的链表(一般是双向链表,下图未表示双向),如下:
这个链表中,如果要搜索一个数,需要从头到尾比较每个元素是否匹配,直到找到匹配的数为止,即时间复杂度是 O(n)
。同理,插入一个数并保持链表有序,需要先找到合适的插入位置,再执行插入,总计也是 O(n)
的时间。
那么如何提高搜索的速度呢?很简单,做个索引:
如上图,我们新创建一个链表,它包含的元素为前一个链表的偶数个元素。这样在搜索一个元素时,我们先在上层链表进行搜索,当元素未找到时再到下层链表中搜索。例如搜索数字 19 时的路径如下图:
先在上层中搜索,到达节点 17 时发现下一个节点为 21,已经大于 19,于是转到下一层搜索,找到的目标数字 19。
我们知道上层的节点数目为 n / 2 n/2 n/2,因此,有了这层索引,我们搜索的时间复杂度降为了: O ( n / 2 ) O(n/2) O(n/2)。同理,我们可以不断地增加层数,来减少搜索的时间:
在上面的 4 层链表中搜索 25,在最上层搜索时就可以直接跳过 21 之前的所有节点,因此十分高效。
更一般地,如果有 k 层,我们需要的搜索次数会小于 ⌈ n 2 k ⌉ + k \lceil \frac{n}{2^k} \rceil + k ⌈2kn⌉+k ,这样当层数 kk 增加到 ⌈ log 2 n ⌉ \lceil \log_{2} n \rceil ⌈log2n⌉ 时,搜索的时间复杂度就变成了 log n \log n logn。其实这背后的原理和二叉搜索树或二分查找很类似,通过索引来跳过大量的节点,从而提高搜索效率。
跳表
上节的结构是“静态”的,即我们先拥有了一个链表,再在之上建了多层的索引。但是在实际使用中,我们的链表是通过多次插入/删除形成的,换句话说是“动态”的。上节的结构要求上层相邻节点与对应下层节点间的个数比是 1:2
,随意插入/删除一个节点,这个要求就被被破坏了。
因此跳表(skip list)表示,我们就不强制要求 1:2
了,一个节点要不要被索引,建几层的索引,都在节点插入时由抛硬币决定。当然,虽然索引的节点、索引的层数是随机的,为了保证搜索的效率,要大致保证每层的节点数目与上节的结构相当。下面是一个随机生成的跳表:
可以看到它每层的节点数还和上节的结构差不多,但是上下层的节点的对应关系已经完全被打破了。
现在假设节点 17 是最后插入的,在插入之前,我们需要搜索得到插入的位置:
接着,抛硬币决定要建立几层的索引,伪代码如下:
randomLevel()
lvl := 1
-- random() that returns a random value in [0.