1、跳跃表的定义
跳跃表(Skip List):增加了向前指针的链表叫做指针。跳表全称叫做跳跃表,简称跳表。跳表是一个随机化的数据结构,实质是一种可以进行二分查找的有序链表。跳表在原有的有序链表上增加了多级索引,通过索引来实现快速查询。跳表不仅能提高搜索性能,同时也可以提高插入和删除操作的性能。
跳表是一个随机化的数据结构,可以被看做是二叉树的一个变种,它在性能上和红黑树、AVL树不相上下,但是跳表的原理非常简单, 举生活中一个简单例子,例如我们做公交车,有快线和慢线,想起我之前在广州念书,学校距离市中心比较远,也没有到达,有快线和慢线,快线的站比较少,慢线的站比较多,所以一般我得去快线。
2、跳跃表的原理分析
接下来我们详细得来谈谈跳跃表:
对于一个单链表来说,即使链表中的数据是有序的,如果我们想要查找某个数据,也必须从头到尾的遍历链表,很显然这种查找效率是十分低效的,时间复杂度为O(n)。
那么我们如何提高查找效率呢?我们可以对链表建立一级“索引”,每两个结点提取一个结点到上一级,我们把抽取出来的那一级叫做索引或者索引层,如下图所示。
假设我们要查找59这个结点,你可以先查找第一级索引,依次是14,34, 50,59在50和66之间,所以你查找他的下一级链表,也就是原始链表,查到59这个结点。大大提高了其效率。
当然我们可以在这个基础之上在建立多一级“索引”,如下图所示,
我们还是查找59这个结点,先查找14,50, 介于50和79之间,下一级链表,跳入下一级数,59介于50与66之间,跳入下一级链表,然后找到59。
上面的数量不大,不能够体现其威力,例如我的数据有1000000000个,这个时候的威力也就体现出来,虽然看起来简单,但威力是十分powerful。
3、跳跃表的时间复杂度
单链表的查找时间复杂度为:O(n),下面分析下跳表这种数据结构的查找时间复杂度:
我们首先考虑这样一个问题,如果链表里有n个结点,那么会有多少级索引呢?按照上面讲的,每两个结点都会抽出一个结点作为上一级索引的结点。那么第一级索引的个数大约就是n/2,第二级的索引大约就是n/4,第三级的索引就是n/8,依次类推,也就是说,第k级索引的结点个数是第k-1级索引的结点个数的1/2,那么第k级的索引结点个数为:2/n^{k}。