数组、链表、跳表的原理和实现，以及三者的时间复杂度、空间复杂度比较_根据存储方式(数组、链表)他们的时间复杂度和空间复杂度是什么?-CSDN博客

本文链接：https://blog.csdn.net/FDXCG_X/article/details/114376844

1.数组的原理和实现

数组（Array）是一种连续的线性表结构，它用一组连续的内存空间，来存储相同类型的数据。
关键词：
1.线性
2.连续的内存空间和相同类型的数据。

正是因为这两个限制，它才有了一个堪称“杀手锏”的特性：“随机访问”。
但有利就有弊，这两个限制也让数组的很多操作变得非常低效，比如要想在数组中删除、插入一个数据，为了保证连续性，就需要做大量的数据搬移工作。

**数组的特点：**
1.支持随机访问，根据下标随机查询时，时间复杂度时O(1).
数组是适合查找操作，但是查找的时间复杂度并不为 O(1)。即便是排好序的数组，用二分查找，时间复杂度也是 O(logn)
2.低效插入和删除操作，高效的查询

问题1：为什么会到导致低效的"插入"和"删除"？有什么该改进方法

"插入"低效：
假设数组的长度为 n，现在，如果我们需要将一个数据插入到数组中的第 k 个位置.
为了把第 k 个位置腾出来，给新来的数据，我们需要将第 k～n 这部分的元素都顺序地往后挪一位。
**那插入操作的时间复杂度是多少呢？**
1.最好情况时间复杂度：O(1)，（在数组的尾部插入数据）
2.最差情况时间复杂度：O(n), (在数组的头部插入数据)
3.因为我们在每个位置插入元素的概率是一样的，所以"平均情况时间复杂度"为 (1+2+...n)/n=O(n)。

平均时间复杂度推导过程：
**两种理解方式：** 
1. 平均时间复杂度等于，各种情况所需的时间求和，除以所有的情况数；
即：往n个元素中插入1个元素，可以插入索引0到索引为n的n+1中位置，其中插入位置0所需搬迁元素个数为n，插入位置n+1所需搬迁元素为0；
各种情况所需时间求和： n + (n-1) +(n-2) + ... +0 
情况数：n + 1 
因此时间复杂度为：n*(n+1)/(（（n+1）*2） = O(n) 

2. 每种情况的平均时间复杂度值叠加 插入任何位置的概率都是 1 / n+1 插入位置0，需要移动n个元素.
其时间复杂度为 1 /(n+1) * n = n/n+1,插入位置1，需要移动n-1个元素，时间复杂度为 n-1/n+1... 
即所有时间复杂度和为：n/n+1 + n-1/n+1 + ... + 1/n+1 = n*(n+1)/(（（n+1）*2） = O(n)

"插入"低效解决办法：

如果数组中的数据是有序的，我们在某个位置插入一个新的元素时，就必须按照刚才的方法搬移 k 之后的数据。
但是，如果数组中存储的数据并没有任何规律，数组只是被当作一个存储数据的集合。
在这种情况下，如果要将某个数据插入到第 k 个位置。
为了避免大规模的数据搬移，我们还有一个简单的办法就是，直接将第 k 位的数据搬移到数组元素的最后，把新的元素直接放入第 k 个位置。

假设数组 a[10]中存储了如下 5 个元素：a，b，c，d，e。我们现在需要将元素 x 插入到第 3 个位置。
我们只需要将 c 放入到 a[5]，将 a[2]赋值为 x 即可。最后，数组中的元素如下： a，b，x，d，e，c。

利用这种处理技巧，在特定场景下，在第 k 个位置插入一个元素的时间复杂度就会降为 O(1)。

在这里插入图片描述

"删除"低效：
跟插入数据类似，如果我们要删除第 k 个位置的数据.
为了内存的连续性，也需要搬移数据，不然中间就会出现空洞，内存就不连续了。

1.如果删除数组末尾的数据，则"最好情况时间复杂度"为 O(1)；
2.如果删除开头的数据，则"最坏情况时间复杂度"为 O(n)；
3."平均情况时间复杂度"也为 O(n)。

"删除"低效解决办法：
实际上，在某些特殊场景下，我们并不一定非得追求数组中数据的连续性。
如果我们将多次删除操作集中在一起执行，删除的效率是不是会提高很多呢？

如：数组 a[10]中存储了 8 个元素：a，b，c，d，e，f，g，h。现在，我们要依次删除 a，b，c 三个元素。

在这里插入图片描述

为了避免 d，e，f，g，h 这几个数据会被搬移三次，我们可以先记录下已经删除的数据。

每次的删除操作并不是真正地搬移数据，只是记录数据已经被删除。
当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作，这样就大大减少了删除操作导致的数据搬移。

问题2：容器能否完全替代数组？
"ArrayList 最大的优势就是可以将很多数组操作的细节封装起来"
如数组插入、删除数据时需要搬移其他数据,还有一个优势就是支持"动态扩容"

使用ArrayList，我们就完全不需要关心底层的扩容逻辑，ArrayList 已经帮我们实现好了。
每次存储空间不够的时候，它都会将空间自动扩容为 1.5 倍大小。

需要注意，因为"扩容操作涉及内存申请和数据搬移"，是比较耗时的。
所以，如果事先能确定需要存储的数据大小，最好在创建 ArrayList 的时候事先指定数据大小。

1.Java ArrayList 无法存储基本类型，比如 int、long，需要封装为 Integer、Long 类.
而 Autoboxing、Unboxing 则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。

2.如果数据大小事先已知，并且对数据的操作非常简单，用不到 ArrayList 提供的大部分方法，也可以直接使用数组。

3.当要表示多维数组时，用数组往往会更加直观。比如 Object[][] array；
而用容器的话则需要这样定义：ArrayList<ArrayList<object> > array。

2.链表

2.1概念
"链表无需连续的内存空间来存储，对内存要求比较低" ，它通过"指针"将一组零散的内存块串联起来使用。

在这里插入图片描述

2.2 常见的三种链表结构
	1.单链表（最常用）
	2.双链表
	3.循环链表
	
2.3 节点和后继指针	
	1.链表通过指针将一组零散的内存块串联在一起，内存块称为链表的"**结点**"
	2.为了将所有的结点串起来，每个链表的结点除了存储数据之外，还需记录链上下一个结点的地址。
	这个记录下一个节点地址的指针，叫做"后继指针next"`

2.4 单链表

2.41 单链表的两个特殊的特殊节点：
1.头节点：用来记录链表的基地址
2.尾节点：指针指向的是一个空地址null,表示这是链表最后一个节点

在这里插入图片描述

2.42 单链表的"插入"和"删除"
	1.链表也支持数据的查找、插入和删除操作。
	2.因链表的存储空间本身是不连续的，所以在进行插入和删除操作时,不需要搬移数据。是非常快速的
	3.针对链表的插入和删除操作，只需要考虑相邻结点的指针改变，所以对应的时间复杂度是 O(1)。

在这里插入图片描述

2.43 单链表的'查询'
链表想随机访问第K个元素，就很低效了，因为数据存储并非连续的。
所以无法像数组一样根据首地址和下标，通过寻址公式就能计算出对应的内存地址。

而是需要根据指针一个结点一个结点地依次遍历，直到找到相应的结点。

你可以把链表想象成一个队伍，队伍中的每个人都只知道自己后面的人是谁。
当我们希望知道排在第 k 位的人是谁的时候，我们就需要从第一个人开始，一个一个地往下数。
所以，链表随机访问的性能没有数组好，需要 O(n) 的时间复杂度

2.5循环链表

'循环链表是一种特殊的单链表，和单链表的唯一区别是循环链表的尾节点的指针指向的是头节点。'

1.和单链表相比，循环链表的优点是从链尾到链头比较方便
2.当要处理的数据具有环型结构特点时，就特别适合采用循环链表.如著名的'约瑟夫问题'。

在这里插入图片描述

2.6 双向链表

单向链表只有一个方向，结点只有一个后继指针 next 指向后面的结点。
而双向链表，它支持两个方向，每个结点不止有一个后继指针 next 指向后面的结点，还有一个前驱指针 prev 指向前面的结点。
如下图

在这里插入图片描述

从图中可以看出，双向链表需要额外的两个空间来存储后继结点和前驱结点的地址。
所以，存储相同的数据，双向链表需要比单向链表占用更多的空间。
虽然双指针比较浪费存储空间。但可以支持双向遍历，这样也带来了双向链表操作的灵活性。

'那相比单链表，双向链表适合解决哪种问题呢？'
从结构上来看，双向链表可以支持 O(1) 时间复杂度的情况下找到前驱结点.
正是这样的特点，也使双向链表在某些情况下的插入、删除等操作都要比单链表简单、高效。

在实际的软件开发中，从链表中删除一个数据无外乎这两种情况：
1.删除结点中'值等于某个给定值'的结点；
2.删除给定指针指向的结点。

对于第一种情况，不管是单链表还是双向链表，为了查找到值等于给定值的结点。
都需要从头结点开始一个一个依次遍历对比，直到找到值等于给定值的结点，然后再通过指针操作将其删除。
单纯的删除操作时间复杂度是 O(1)，但遍历查找的时间是主要的耗时点，对应的时间复杂度为 O(n)。
根据时间复杂度分析中的加法法则，'删除值等于给定值的结点对应的链表操作的总时间复杂度为 O(n)'。

对于第二种情况，我们已经找到了要删除的结点.
但是删除某个结点 q 需要知道其前驱结点，而单链表并不支持直接获取前驱结点.
所以，为了找到前驱结点，我们还是要从头结点开始遍历链表，直到 p->next=q，说明 p 是 q 的前驱结点。
对于双向链表来说,这种情况就比较有优势了.因为双向链表中的结点已经保存了前驱结点的指针，不需要像单链表那样遍历。
所以，针对第二种情况，单链表删除操作需要 O(n) 的时间复杂度，而双向链表只需要在 O(1) 的时间复杂度内就搞定了！

同理，如果我们希望在链表的某个指定结点前面插入一个结点，双向链表比单链表有很大的优势。
双向链表可以在 O(1) 时间复杂度搞定，而单向链表需要 O(n) 的时间复杂度。

除了插入、删除操作有优势之外，对于一个有序链表，双向链表的按值查询的效率也要比单链表高一些。
'我们可以记录上次查找的位置 p，每次查询时，根据要查找的值与 p 的大小关系，决定是往前还是往后查找，所以平均只需要查找一半的数据。'

所以，双向链表要比单链表更加高效，这就是在实际的软件开发中，双向链表尽管比较费内存。
但还是比单链表的应用更加广泛的原因。如：'LinkedHashMap容器的实现原理就用到了双向链表的数据结构'

这就是'用空间换时间的设计思想',缓存实际上就是利用了空间换时间的设计思想

总结：对于执行慢的程序，我们可以通过'用空间换时间的设计思想'进行优化。
而对于消耗内存过大的程序，我们通过'时间换空间的设计思想'进行优化。

**补充：双向循环链表**

在这里插入图片描述

2.7 链表 VS 数组性能大比拼

'数组的优点：'
数组简单易用，在实现上使用的是连续的内存空间，可以借助 CPU 的缓存机制，预读数组中的数据，所以访问效率更高。
而链表在内存中并不是连续存储，所以对 CPU 缓存不友好，没办法有效预读。

补充：（CPU缓存）
CPU在从内存读取数据的时候，会先把读取到的数据加载到CPU的缓存中。
而CPU每次从内存读取数据并不是只读取那个特定要访问的地址，而是读取一个数据块并保存到CPU缓存中。下次访问内存数据的时候就会先从CPU缓存开始查找，如果找到就不需要再从内存中取。这样就实现了比内存访问速度更快的机制。

**CPU缓存存在的意义:**为了弥补内存访问速度过慢与CPU执行速度快之间的差异而引入。 
对于数组来说，存储空间是连续的，所以在加载某个下标的时候可以把以后的几个下标元素也加载到CPU缓存这样执行速度会快于存储空间不连续的链表存储。

**数组的缺点：**
数组的缺点是大小固定，一经声明就要占用整块连续内存空间。链表本身没有大小的限制，天然地支持动态扩容

如果你的代码对内存的使用非常苛刻，那数组就更适合你。
因为链表中的每个结点都需要消耗额外的存储空间去存储一份指向下一个结点的指针，所以内存消耗会翻倍。
而且，对链表进行频繁的插入、删除操作，还会导致频繁的内存申请和释放，容易造成内存碎片，如果是 Java 语言，就有可能会导致频繁的 GC（Garbage Collection，垃圾回收）

所以，在我们实际的开发中，针对不同类型的项目，要根据具体情况，权衡究竟是选择数组还是链表。

2.8 链表的经典应用场景：LRU缓存淘汰算法

"缓存是一种提高数据读取性能的技术。缓存的大小有限"，当缓存被用满时，哪些数据应该被清理，哪些数据应该被保留，这就需要缓存淘汰策略来决定
常见的缓存淘汰策略有
1先进先出策略（FIFOFirst In，First Out）
2.最少使用策略（Least Frequently Used）
3.最近最少使用策略 LRU（Least Recently Used）。

问题1：如何用链表来实现 LRU 缓存淘汰策略呢？
维护一个有序单链表，越靠近链表尾部的结点是越早之前访问的。当有一个新的数据被访问时，从链表头开始顺序遍历链表。
1.如果此数据之前已经被缓存在链表中了，我们遍历得到这个数据对应的结点，并将其从原来的位置删除，然后再插入到链表的头部。
2.如果此数据没有在缓存链表中，又可以分为两种情况：

 - 如果此时缓存未满，则将此结点直接插入到链表的头部；
 - 如果此时缓存已满，则链表尾结点删除，将新的数据结点插入链表的头部
这样就用链表实现了一个 LRU 缓存。因为不管缓存有没有满，我们都需要遍历一遍链表,所以'基于链表的实现思路，缓存访问的时间复杂度为 O(n)'。

优化：'引入散列表（Hash table）来记录每个数据的位置。将缓存访问的时间复杂度降到 O(1)'