极客时间-数据结构与算法之美（一）

啦啦啦1023

已于 2022-12-30 15:52:00 修改

阅读量598

点赞数

分类专栏：极客时间文章标签：数据结构算法 java

于 2022-12-28 23:07:17 首次发布

本文链接：https://blog.csdn.net/m0_63357037/article/details/128475148

版权

本文详细介绍了数组和链表这两种基本数据结构，分析了它们各自的优缺点。数组支持随机访问，但插入和删除操作效率低，而链表插入和删除高效，但随机访问慢。数组适合已知大小且需要快速访问的场景，链表在动态增删和内存不连续的情况下更合适。此外，文章还讨论了如何在链表中实现LRU缓存淘汰策略，以及栈和队列的概念和应用场景，如浏览器的前进后退功能和线程池中的资源管理。

摘要由CSDN通过智能技术生成

05 | 数组：为什么很多编程语言中数组都从0开始编号？

数组支持随机访问，根据下标随机访问的时间复杂度为 O(1)。

从数组存储的内存模型上来看，“下标”最确切的定义应该是“偏移（offset）”。如果用 a 来表示数组的首地址，a[0] 就是偏移为 0 的位置，也就是首地址，a[k] 就表示偏移 k 个 type_size 的位置，所以计算 a[k] 的内存地址只需要用这个公式：a[k]_address = base_address + k * type_size

数组

数组如何实现随机访问 1）数组是一种线性数据结构，用连续的存储空间存储相同类型数据 I）线性表：数组、链表、队列、栈非线性表：树图 II）连续的内存空间、相同的数据，所以数组可以随机访问，但对数组进行删除插入，为了保证数组的连续性，就要做大量的数据搬移工作 a) 数组如何实现下标随机访问。

通过寻址公式，计算出该元素存储的内存地址：a[i]_address = base_address + i * data_type_size

b) 纠正数组和链表的错误认识。数组的查找操作时间复杂度并不是O(1)。即便是排好的数组，用二分查找，时间复杂度也是O(logn）。正确表述：数组支持随机访问，根据下标随机访问的时间复杂度为O(1）
1. 低效的插入和删除
  
  若有一元素想往int[n]的第k个位置插入数据，需要在k-n的位置往后移。
  
  1）插入：最好O(1) 最坏O(n) 平均O(n) 2）插入：数组若无序，插入新的元素时，可以将第K个位置元素移动到数组末尾，把新的元素，插入到第k个位置，此处复杂度为O(1)。
  
  3）删除：最好O(1) 最坏O(n) 平均O(n) 4）多次删除集中在一起，提高删除效率记录下已经被删除的数据，每次的删除操作并不是搬移数据，只是记录数据已经被删除，当数组没有更多的存储空间时，再触发一次真正的删除操作。即JVM标记清除垃圾回收算法。
警惕数组的访问越界问题 用C语言循环越界访问的例子说明访问越界的bug。如果用来编译这段程序的编译器按照内存地址递减的方式给变量分配内存，那么内存中的i将会被置为0，则为死循环永远出不去。 C语言中的数据越界是一种未决行为，一般比较难发现的逻辑错误。相比之下，Java会有越界检查。
容器能否完全替代数组 相比于数字，java中的ArrayList封装了数组的很多操作，并支持动态扩容。一旦超过存储容量，扩容时比较耗内存，因为涉及到内存申请和数据搬移。数组适合的场景： 1） Java ArrayList 的使用涉及装箱拆箱，有一定的性能损耗，如果特别关注性能，可以考虑数组 2）若数据大小事先已知，并且涉及的数据操作非常简单，可以使用数组 3）表示多维数组时，数组往往更加直观。 4）业务开发容器即可，底层开发，如网络框架，性能优化。选择数组。

06 | 链表（上）：如何实现LRU缓存淘汰算法?

当缓存被用满时，哪些数据应该被清理出去，这就需要缓存淘汰策略来决定。常见的策略有三种：先进先出策略 FIFO（First In，First Out）、最少使用策略 LFU（Least Frequently Used）、最近最少使用策略 LRU（Least Recently Used）。

链表通过指针将一组零散的内存块串联在一起。其中，内存块称为链表的“结点”。为了将所有的结点串起来，每个链表的结点除了存储数据之外，还需要记录链上的下一个结点的地址。这个记录下个结点地址的指针叫作后继指针 next。

头结点用来记录链表的基地址。有了它，我们就可以遍历得到整条链表。而尾结点特殊的地方是：指针不是指向下一个结点，而是指向一个空地址 NULL，表示这是链表上最后一个结点。

针对链表的插入和删除操作，我们只需要考虑相邻结点的指针改变，所以对应的时间复杂度是 O(1)。

链表要想随机访问第 k 个元素，需要根据指针一个结点一个结点地依次遍历，直到找到相应的结点。

单向链表只有一个方向，结点只有一个后继指针 next 指向后面的结点。而双向链表，它支持两个方向，每个结点不止有一个后继指针 next 指向后面的结点，还有一个前驱指针 prev 指向前面的结点。
双向链表需要额外的两个空间来存储后继结点和前驱结点的地址。所以，如果存储同样多的数据，双向链表要比单链表占用更多的内存空间。虽然两个指针比较浪费存储空间，但可以支持双向遍历，这样也带来了双向链表操作的灵活性。
双向链表可以支持 O(1) 时间复杂度的情况下找到前驱结点，正是这样的特点，也使双向链表在某些情况下的插入、删除等操作都要比单链表简单、高效。

从链表中删除一个数据无外乎这两种情况：

删除结点中“值等于某个给定值”的结点；
删除给定指针指向的结点。

对于第一种情况，不管是单链表还是双向链表，都需要从头结点开始一个一个依次遍历对比，直到找到值等于给定值的结点，然后再将其删除。总时间复杂度为O(n)。

对于第二种情况，我们已经找到了要删除的结点，但是删除某个结点 q 需要知道其前驱结点，而单链表并不支持直接获取前驱结点，所以还是要从头结点开始遍历链表，直到 p->next=q，说明 p 是 q 的前驱结点。

但是对于双向链表来说，双向链表中的结点已经保存了前驱结点的指针，不需要像单链表那样遍历。所以，针对第二种情况，单链表删除操作需要 O(n) 的时间复杂度，而双向链表只需要在 O(1) 的时间复杂度内就搞定了！

同理，如果我们希望在链表的某个指定结点前面插入一个结点，双向链表比单链表有很大的优势。双向链表可以在 O(1) 时间复杂度搞定，而单向链表需要 O(n) 的时间复杂度。

对于一个有序链表，双向链表的按值查询的效率也要比单链表高一些。因为，我们可以记录上次查找的位置 p，每次查询时，根据要查找的值与 p 的大小关系，决定是往前还是往后查找，所以平均只需要查找一半的数据。

数组使用的是连续的内存空间，可以借助 CPU 的缓存机制，预读数组中的数据，所以访问效率更高。而链表在内存中并不是连续存储，所以对 CPU 缓存不友好，没办法有效预读。

数组的缺点是大小固定，一经声明就要占用整块连续内存空间。如果声明的数组过大，系统可能没有足够的连续内存空间分配给它，导致“内存不足”。如果声明的数组过小，则可能出现不够用的情况。这时只能再申请一个更大的内存空间，把原数组拷贝进去，非常费时。链表本身没有大小的限制，天然地支持动态扩容，我觉得这也是它与数组最大的区别。

如果代码对内存的使用非常苛刻，那数组就更适合。因为链表中的每个结点都需要消耗额外的存储空间去存储一份指向下一个结点的指针，