1.常用数据结构STACK、QUEUE 、ARRAY、LINKED LIST、HASH、 TREE整理

最新推荐文章于 2024-02-01 12:08:39 发布

编码是个技术活

最新推荐文章于 2024-02-01 12:08:39 发布

阅读量1.4k

点赞数 1

分类专栏： Java 文章标签：数据结构链表 B+TREE HASH

本文链接：https://blog.csdn.net/wangchengaihuiming/article/details/95060420

版权

Java 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

一、前奏
最近在看数据结构相关的文章，发现自己对这块的原理还是知之甚少。比如LIST有哪些特点，MAP有哪些特点，HASH及BTREE的使用场景，为什么MYSQL使用最多的是BTREE索引等，了解这些对工作中还是很有益处的。
二、数据结构
在写数据结构相关实现前我们先要了解下数据结构到底有什么用？Java是一种比较高效的语言，数据结构就是Java这种高效语言的推进剂使我们更加高效实现我们的目标。我们常用的数据结构有：堆栈、队列、数组、哈希、链表、树等。下面我们就分别介绍下他们的特性及应用场景：
三、堆栈（stack）
堆栈：它是运算受限制的线性表（线性表是n个具有相同特性的数据元素的有限序列）、其限制是只允许在数据的一端进行操作，不允许在其他任何的位置进行添加，查找和删除操作。采用该结构的数据集合有如下特点：
1.先进后出
2.栈的出口和入口都是栈的顶端位置。
在这里插入图片描述
堆栈应用场景：
JVM就是基于堆栈的虚拟机，JVM为每个新创建的线程都分配了一个堆栈，对于一个java程序而言，它的运行就是通过堆栈的操作来完成的。除此之外，我们熟悉的编译器变异机制中也有栈的原理，例如特殊标点符号匹配，例如“{”、“}”、“（”、“）”等成对的符号。
四、队列（queue）
队列：和堆栈一样它也是运算受限制的线性表（线性表是n个具有相同特性的数据元素的有限序列）、其限制是只允许在表的一端进行插入而在表的另一端进行删除。采用该结构的数据集合有如下特点：
1.先进先出
2.队列的入口，出口各占一侧
在这里插入图片描述
队列应用场景：
常见的消息队列入ActiveMQ、Kafka、RabbitMQ都是基于队列实现的。
五、数组（array）
数组：是有序的元素序列，数组是在内存中开辟一段连续的内存空间，并在此空间存放元素，数组保存的数据的个数在分配内存的时候就是确定的。就像一列火车，有10节车厢，从 1到10每节车厢都有固定编号，我们通过编号就可以快速找到对应的车厢。
数组有如下特点：
访问数组中第 n 个数据的时间花费是 O(1) 但是要在数组中查找一个指定的数据则是 O(N)。当向数组中插入或者删除数据的时候，最好的情况是在数组的末尾进行操作，时间复杂度是O(1) ，但是最坏情况是插入或者删除第一个数据，时间复杂度是 O(N) 。在数组的任意位置插入或者删除数据的时候，后面的数据全部需要移动，移动的数据还是和数据个数有关所以总体的时间复杂度仍然是 O(N) 。
在这里插入图片描述
六、链表（linked list）
链表：链表是一种递归的数据结构，它或者为空（null），或者是指向一个结点（node）的引用，该节点还有一个元素和一个指向另一条链表的引用（链表每个节点包括两部分：一个数存储数据元素的数据域，另一个是存储下一个节点地址的指针域）。链表是在非连续的内存单元中保存数据，并且通过指针将各个内存单元链接在一起，最后有一个节点的指针指向 NULL 。链表不需要提前分配固定大小存储空间，当需要存储数据的时候分配一块内存并将这块内存插入链表中。
链表有如下特点：
在链表中查找第 n 个数据以及查找指定的数据的时间复杂度是 O(N) 想查找某个元素需要通过连接的节点，依次向后查找指定元素，但是插入和删除数据的时间复杂度是 O(1) 想删除和新增某个元素只需要修改连接下个元素的地址即可，因为只需要调整指针就可以（查找元素慢，增删元素快）。
加粗样式
向上面这样的链表结构在插入和删除的时候编程会比较困难，因为需要记住当前节点的前一个节点，这样才能完成插入和删除。为了简便通常使用带有头节点的链表：
在这里插入图片描述
上面的链表是单链表，此外还有双链表，就是节点中包含指向下一个节点的指针和指向

七、哈希表（hash table）
哈希表：是一种特殊的数据结构，它最大的特点就是可以快速实现查找、插入和删除。hash算法是一种将任意长度的消息压缩到某一固定长度（消息摘要）的函数（该过程不可逆）。Hash函数可用于数字签名消息的完整性检测、消息起源的认证检测等。总的来说，哈希表就是一个具备映射关系的表，你可以通过映射关系由键找到值。
哈希表特性：
哈希表则利用了在数组中根据下标就可以一次定位到某个元素的特性。哈希表在存储地址和元素的关键字之间建立一个确定的关系f
存储地址 = f(关键字)；
使的每个元素和数据结构中一个唯一的存储地址相对应。因而在查找时，首先利用元素的关键字和确定关系f找到元素的存储地址，进而一次定位到某个元素，不需要比较便可直接获取。
在此，我们称这个对应关系f为：哈希(Hash)函数，按这个思想建立的映射关系表为：哈希表。
在这里插入图片描述
图中User2和User4根据身份证号算出来的值都是5，后面还跟了一个链表。假设，这时候你要查ID_card_n2对应的名字是什么，处理步骤就是：首先，将ID_card_n2通过哈希函数算出5；然后，按顺序遍历，找到User2。
hash应用场景：
常见的散列算法有MD5、SHA、RIPE-MD、HAVAL、N-Hash、MYSQL索引等。
八、树（tree）
树是经典的一种数据结构树是非线性结构的典型例子。树是n个数据结点的集合，这些集结点包含一个根节点，根节点下有着互相不交叉的子集合，这些子集合便是根节点的子树。我们常见的树结构有二叉树，B树，B+树等。
树的特性：
1.在一个树结构中，有且仅有一个结点没有直接前驱，它就是根节点。
2.除了根节点，其他结点有且只有一个直接前驱。
3.每个结点可以有任意多个直接后继节点。
下面我们具体分析下二叉树，B树与B+树的特点
1.二叉树
二叉树是最基础的树结构，二叉树具有以下性质：每个结点最多只能有二棵子树，二叉树的子树有左右之分，次序不能颠倒，左子树的键值小于根的键值，右子树的键值大于根的键值。

关于二叉树的定义：二叉树（Binary Tree）是n(n≥0)个结点组成的有限集合，n=0时称为空二叉树；n>0的二叉树由一个根结点和两棵互不相交、分别称为左子树和右子树的子二叉树构成，二叉树也是递归定义的，在树种定义的度、层次等术语，同样适用于二叉树。

二叉树的种类又可分为：普通二叉树，满二叉树，完全二叉树：
在这里插入图片描述
2.B树（B-Tree）
B-Tree是为磁盘等外存储设备设计的一种平衡查找树，系统从磁盘读取数据到内存时是以磁盘块（block）为基本单位的，位于同一个磁盘块中的数据会被一次性读取出来，而不是需要什么取什么。
一棵m阶的B-Tree有如下特性：
1.每个节点最多有m个孩子。
2. 除根结点之外的所有非叶子结点至少有⌈m/2⌉棵子树。
3. 若根结点不是叶子节点，则至少有两棵子树。
4. 所有叶子节点都在同一层，且不包含其它关键字信息
5. 每个非终端节点包含n个关键字信息（P0,P1,…Pn, k1,…kn）
6. 关键字的个数n满足：ceil(m/2)-1 <= n <= m-1
7. ki(i=1,…n)为关键字，且关键字升序排序。
8. Pi(i=1,…n)为指向子树根节点的指针。P(i-1)指向的子树的所有节点关键字均小于ki，但都大于k(i-1)
B-Tree中的每个节点根据实际情况可以包含大量的关键字信息和分支，如下图所示为一个3阶的B-Tree：
在这里插入图片描述
图中每个节点占用一个盘块的磁盘空间，一个节点上有两个升序排序的关键字和三个指向子树根节点的指针，指针存储的是子节点所在磁盘块的地址。两个关键词划分成的三个范围域对应三个指针指向的子树的数据的范围域。以根节点为例，关键字为20和40，P1指针指向的子树的数据范围为小于20，P2指针指向的子树的数据范围为20~40，P3指针指向的子树的数据范围为大于40。
模拟查找关键字48的过程：
1.根据根节点找到磁盘块1，读入内存。【磁盘I/O操作第1次】
2. 比较关键字48大于关键字40，找到磁盘块1的指针P3。
3. 根据P3指针找到磁盘块4，读入内存。【磁盘I/O操作第2次】
4. 比较关键字48在区间（45,55），找到磁盘块4的指针P2。
5. 根据P2指针找到磁盘块10，读入内存。【磁盘I/O操作第3次】
6. 在磁盘块10中的关键字列表中找到关键字48。
分析上面过程，发现需要3次磁盘I/O操作，和3次内存查找操作。由于内存中的关键字是一个有序表结构，可以利用二分法查找提高效率。而3次磁盘I/O操作是影响整个B-Tree查找效率的决定因素。B-Tree相对于AVLTree缩减了节点个数，使每次磁盘I/O取到内存的数据都发挥了作用，从而提高了查询效率。
3.B+树（B+Tree）
B+Tree是在B-Tree基础上的一种优化，使其更适合实现外存储索引结构，InnoDB存储引擎就是用B+Tree实现其索引结构。
在上面B-Tree结构图中可以看到每个节点中不仅包含数据的key值，还有data值。而每一个页的存储空间是有限的，如果data数据较大时将会导致每个节点（即一个页）能存储的key的数量很小，当存储的数据量很大时同样会导致B-Tree的深度较大，增大查询时的磁盘I/O次数，进而影响查询效率。在B+Tree中，所有数据记录节点都是按照键值大小顺序存放在同一层的叶子节点上，而非叶子节点上只存储key值信息，这样可以大大加大每个节点存储的key值数量，降低B+Tree的高度。
B+Tree相对于B-Tree有几点不同：
1.非叶子节点只存储键值信息。
2. 所有叶子节点之间都有一个链指针。
3. 数据记录都存放在叶子节点中。
由于B+Tree的非叶子节点只存储键值信息，假设每个磁盘块能存储3个键值及指针信息，则变成B+Tree后其结构如下图所示：
在这里插入图片描述
通常在B+Tree上有两个头指针，一个指向根节点，另一个指向关键字最小的叶子节点，而且所有叶子节点（即数据节点）之间是一种链式环结构。因此可以对B+Tree进行两种查找运算：一种是对于主键的范围查找和分页查找，另一种是从根节点开始，进行随机查找，这种查找方式在InnoDB（InnoDB是MySQL的数据库引擎之一）使用了B+树索引模型，所以数据都是存储在B+树中的，每一个索引在InnoDB里面对应一棵B+树。