转载自微信公众号:labuladong
本文是对整个数据结构及算法的总体框架认识,旨在教会读者从整体到细节,自顶向下,从抽象到具体地认识数据结构,这种思维也是递归思维的精华所在。希望通过本文读者在对数据结构的学习和理解上能有更高层的认识。
先声明一下:首先,这里讲的都是普通的数据结构,咱不是搞算法竞赛的,野路子出生,很多厉害的知识我不会,我只会解决常规的问题。另外,以下是我个人的经验的总结,没有哪本算法书会写这些东西,所以请读者试着理解我的角度,如果不是严重的逻辑错误,没必要纠结于细节问题,因为这篇文章就是希望对数据结构和算法建立一个框架性的认识。我有信心大家能从这篇文章里学到点什么。
如果没时间细看,一定不要错过第四点。
一、数据结构千变万化,但不离其宗
最高层的抽象,数据结构只有两种:数组和链表。
这句话怎么理解,不是还有散列表、栈、队列、堆、树、图等等各种数据结构吗?
我们分析问题,一定要有递归的思想,自顶向下,从抽象到具体。你上来就列出这么多,那些都属于「上层建筑」,而数组和链表才是「结构基础」。因为那些多样化的数据结构,究其源头,都是在链表或者数组上的特殊操作,API 不同而已。
比如说「队列」、「栈」这两种数据结构既可以使用链表也可以使用数组实现。用数组实现,就要处理扩容缩容的问题;用链表实现,没有这个问题,但需要更多的空间存储节点指针。
「图」的两种表示方法,邻接表就是链表,邻接矩阵就是二维数组。邻接矩阵判断连通性迅速,并可以进行矩阵运算解决一些问题,但是一般比较耗费空间。邻接表比较节省空间,但是时间上肯定比不过邻接矩阵。
「散列表」就是通过散列函数把键映射到一个大数组里。而且对于解决散列冲突的方法,拉链法需要链表特性,操作简单,但需要空间;线性探查法就需要数组特性,以便连续寻址,省空间,但操作稍微复杂些。
「树」,用数组实现就是「堆」,因为「堆」是一个完全二叉树,用数组存储不需要节点指针,操作也比较简单;用链表实现就是很常见的那种「树」,因为不一定是完全二叉树,所以不适合用数组存储。为此,在这种链表「树」结构之上,又衍生出各种巧妙的设计,比如二叉搜索树、AVL 树、红黑树、区间树、B 树等等,以应对不同的问题。
二、对数据结构的操作,无非遍历 + 访问
遍历 + 访问,再具体一点就是:增删查改。
数据结构种类很多,但它们存在的目的都是在不同的应用场景,尽可能高效地增删查改。试问,除此之外还有其他吗?
如何遍历 + 访问?我们仍然从最高层来看,各种数据结构的遍历 + 访问无非两种形式,线性的和非线性的。
线性就是 for/while 为代表,非线性就是递归为代表。再具体一步,无非以下两种框架:
数组遍历框架,典型的线性遍历结构:
void traverse(int[] arr) {
for (int i = 0; i