双列集合&数据结构

深巷与猫i

已于 2023-08-07 08:20:18 修改

阅读量48

点赞数

文章标签： java 数据结构链表

于 2023-08-07 08:19:42 首次发布

本文链接：https://blog.csdn.net/qq_71263789/article/details/132138761

版权

1. Map接口

1.1 Map接口介绍

现实生活中，我们经常需要成对存储某些信息。比如，我们使用的微信，一个手机号只能对应一个微信账户。这就是一种成对存储的关系。

Map就是用来存储“键(key)-值(value) 对”的。Map类中存储的“键值对”通过键来标识，所以“键对象”不能重复。

Map接口位于java.util包中,开发中Map接口最常用的实现类有HashMap、LinkedHashMap、TreeMap、Hashtable、Properties等等。

1.1.1 Map常用方法

Map接口中定义的方法
Object put(Object key, Object value);	存放键值对。
Object get(Object key);	通过键对象查找得到值对象。
Object remove(Object key);	删除键对象对应的键值对。
boolean containsKey(Object key);	Map容器中是否包含键对象对应的键值对。
Boolean containsValue(Object value);	Map容器中是否包含值对象对应的键值对。
Collection values();	获取集合中所有的值
int size();	获取包含键值对的数量。
boolean isEmpty();	判断Map是否为空。
void clear();	清空本map对象所有键值对。

Map接口方法使用：

Map集合中提供了get() 获取元素的方法， get()对应一个键取出其对应的值，这种方式比较局限和单一，不能全部取出来。要取出所有的元素（值），则必须要拿到所有的键，然后才能取到所有与其对应的值，针对这种新的需求，Java中提供了相应的解决方案。

Map集合中是没有迭代器的，Map集合取出键值的原理：将Map集合转成Set集合，再通过迭代器取出。

1.1.2 keySet() 方法

Set<K> keySet()方法，该方法将map中所有的键存入到Set集合，因为set具备迭代器，所有迭代方式取出所有的键再根据get()方法，获取每一个键对应的值。

1.1.3 entrySet()方法

entrySet()方法，该方法取出的是关系（Set<Map.Entry<K, V>>），关系中包含key和value。其中Map.Entry<K,V>来表示这种数据类型，即将Map集合中的映射关系存入到Set集合中，这个关系的数据类型为Map.Entry接口.

Map.Entry接口在java.util包中，它是Map接口中的一个内部接口，getKey()和getValue()是接口Map.Entry<K,V>中的方法，返回对应的键和对应的值。

【示例】entrySet () 方法使用

1.2 HashMap类使用详解

HashMap采用哈希算法实现，是Map接口最常用的实现类。由于底层采用了哈希表存储数据，我们要求键不能重复，如果发生重复，新键值对会替换旧的键值对。 HashMap在查找、删除、修改方面都有非常高的效率。

HashMap 集合中的 key 不能重复(key可以为null)，因此我们需要通过重写 hashCode() 与 equals()方法来保证Key的唯一性。

1.2.1 情况一：key为常用类对象

HashMap 中key为 JavaAPI 中提供的类型元素时，不需要重写元素的 hashCode 和 equals 方法，因为这两个方法，在 JavaAPI 的每个类中已经重写完毕，如 String 类、Integer 类等。

1.2.2 情况二：key为自定义对象

给 HashMap 中存放自定义对象时，如果自定义对象作为 key 存在，这时要保证对象唯一，必须重写对象的 hashCode 和 equals 方法，建立自己的比较方式，才能保证 HashMap 集合中的对象唯一。

注意：当自定义对象作为HashMap的key时，一定得重写自定义类的 hashCode 和 equals 方法，建立自己的比较方式，才能保证 HashMap 集合中的对象唯一.

1.3 HashMap类底层实现

1.3.1.2 散列函数

散列函数（也就是hashCode()方法），通过散列函数获得key对象的哈希码，实际上就是建立起key值与int值映射关系的函数。把任意的Java对象，映射成一个int数值（散列均匀，尽量不重复），供哈希表使用。

另外，通过hashCode()方法获得的结果是一个很大的整数，我们的哈希表不可能提供那么大的存储空间，所以我们还需要对获得的哈希码值做处理。现实开发中，最常见的做法就是“取余法”，把获得的“哈希码值%哈希表长度”，这样得到的结果就肯定在哈希表索引的合法取值范围了。

1.3.2.3 散列碰撞

通过hashCode()方法，获得了一个散列均匀的哈希码值，但是不同的key对象获得哈希码值可能相同；另外，通过对不同的“哈希码值%哈希表长度”得到的索引值也可能相同，那就意味着在哈希表的某个索引位置需要存储多条数据，这就是所谓的散列碰撞问题。

目前比较通用的解决散列碰撞的方法，就是使用“数组+链表”组合的方式。当出现散列碰撞时，在该位置的数据就通过单链表的方式链接起来，这样一来数组中的每个元素维护的就是一个单链表啦。

总结：

散列碰撞情况一：不同的key通过hashCode()得到的hash值相同。

散列碰撞情况二：不同的hash值，通过hash值%数组长度得到的索引相同

也就是说：只要是在数组的同一个索引处，存储多条数据的情况都称为：散列碰撞

1.3.3 模拟HashMap的实现

接下来我们来基于JDK1.7来模拟HashMap的实现，本章节重点模拟HashMap的put()方法和get()方法，在进行模拟put()方法和get()方法的实现之前，我们先做好相关的准备工作。

首先创建一个Node节点类，Node节点类是HashMap的内部类，它有几个重要的属性：键对象(key) 、值对象(value)、键对象的hash值(hash)和下一个节点(next)。

本次模拟HashMap属于简化实现，此处并没有去考虑table数组的“扩容问题”，所以我们在声明table数组的同时并完成了数组的初始化操作，默认初始化长度16个空间大小。

【第一步】：判断key是否为null

先判断一下要存储内容的key值是否为null，如果key为null，则将该内容存储到table数组的第一个位置。

【第二步】：获得key对象的hashcode

如果key不为null，则再去调用key对象的hashcode()方法，获得key对象的哈希值。

【第三步】：获得存储位置的下标

hashcode是一个整数，我们需要将它转化成[0，数组长度-1]范围的整数。我们要求转化后的hash值尽量均匀地分布在[0，数组长度-1]这个区间，减少“hash冲突”。

取模法：索引 = key的哈希值 % 数组长度

【第四步】：将Node对象添加到table数组中

当table[index]返回的结果为null时，则直接创建一个新的Entry对象添加到table[index]处。

当table[index]返回的结果不为null时，则判断链表中是否在相同key。如果存在相同的key，就用新的value代替老的value，也就是执行覆盖操作。如果不存在相同的key，那么新创建的Node对象将会储存在链表的表头，通过next指向原有的Node对象，形成链表结构（hash碰撞解决方案）。

简单来说，HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的。

取数据过程get(key)

实现步骤：

我们需要通过key对象获得“键值对”对象，进而返回value对象。明白了存储数据过程，取数据就比较简单了。

【第一步】：判断key是否为null

先判断一下要获取内容的key值是否为null，如果为null，则执行getForNullKey()方法，这个方法的作用就是将table数组的第一个位置的节点的value值取出来返回。

【第二步】：获得key对象的hashcode

如果key不为null，则再去调用key对象的hashcode()方法，获得key对象的哈希值。

【第三步】：获得存储位置的下标

获得key的hashcode，通过hash()散列算法得到hash值，进而定位到数组的位置找到对应的链表。

【第四步】：在链表上挨个比较key对象

调用equals()方法，将key对象和链表上所有节点的key对象进行比较，直到碰到返回true的节点对象为止。如果key对象和链表上的某个节点的key对象相同，则直接返回该节点对象的value对象值。如果链表遍历比较完毕，都没有遇到key对象和链表节点的key对象相同的情况，那么证明key对象对应的value对象不存在，直接返回null即可！

1.3.4 HashMap的性能优化

哈希表是一种优化存储的思想，具体存储元素的依然是其它的数据结构。前面我们通过“数组+链表”的方式来实现了哈希表，使其哈希表能同时兼备数组和链表的优点，它能在插入和查找时都具备良好的性能。虽然，哈希表的整体性能已经相当高，但是我们使用哈希表的时候，还是有很多地方值得优化，接下来我们就讲解几个哈希表的优化操作。

散列表的容量设置为2的整数次幂

把散列表的容量设置为2的整数次幂，就是为了加快散列计算以及减少散列冲突。

为什么可以加快散列计算？因为& 运算属于位运算，是直接执行的二进制操作，因此&运算比%运算效率更高。当散列表的容量（length）为2的整数次幂时，执行“hash & (length - 1)”和“hash % length”的运算的结果相同，但是&运算的效率高于%运算，所以建议散列表的容量设置为2的整数次幂，代码验证如下：

为什么可以减少冲突？假设现在数组的长度length可能是偶数也可能是奇数。

当length为偶数时，length-1为奇数，奇数的二进制最后一位是1，这样便保证了hash &(length-1) 的最后一位可能为0，也可能为1（这取决于hash的值），即&运算后的结果可能为偶数，也可能为奇数，这样便可以保证散列的均匀性。

当 length为奇数的话，很明显length-1为偶数，它的最后一位是0，这样hash & (length-1)的最后一位肯定为0，即只能为偶数，这样任何 hash 值都只会被散列到数组的偶数下标位置上，这便浪费了近一半的空间。

因此，length值为2的整数次幂，是为了使不同hash值发生碰撞的概率较小，这样就能使元素在散列表中均匀地散列。
设置散列表的初始化容量

当散列表中的元素越来越多的时候，散列碰撞的几率也就越来越高（因为数组的长度是固定的），从而导致链表过长，降低了散列表的性能，此时我们就需要对散列表进行扩容操作。

那么Hashtable什么时候进行扩容呢？当执行put()操作的时候，如果Hashtable中存储元素的个数超过“数组长度* loadFactor”的结果（loadFactor指的是负载因子，loadFactor的默认值一般为0.75），那么就就需要执行数组扩容操作。

所谓的扩容操作，就是把数组的空间大小扩大一倍，然后遍历散列表中元素，把这些元素重新均匀分散到扩容后的散列表中。例如，默认情况下，数组大小为16，那么当Hashtable中元素个数超过16*0.75=12的时候，就需要执行扩容操作，把数组的大小扩展为2*16=32，然后重新计算每个元素在数组中的位置，这是一个非常消耗性能的操作。

为了避免扩容带来的性能损坏，建议使用散列表之前，先预测散列表需要存储元素的个数，提前为散列表中的数组设置合适的存储空间大小，避免去执行扩容的操作，进一步提升散列表的性能。

例如：我们需要存储1000个元素，按照散列表的容量设置为2的整数次幂的思想，我们设置散列表的容量为1024更合适。但是0.75*1024 < 1000，需要执行消耗性能的扩容操作，因此我们设置散列表的容量为2048更加合适，这样既考虑了&的问题，也避免了扩容的问题。

思考：当我们创建一个HashMap对象，设置哈希表的容量为15，请问HashMap对象创建成功后，哈希表的实际容量为多少呢？？？
使用红黑树来优化存储

如果散列表处理“碰撞”的时候，都是采用链表来存储，当碰撞的结点很多时，就会造成检索效率低下。所以我们可以对散列表的结构进一步优化，当碰撞结点较少时（例如：元素小于等于8个），采用链表存储；当较大时（例如：元素大于8个），则采用红黑树（下一章节就要学习）来存储，这样大大的提高了检索的效率。

总结：

当JDK1.7及以前： hash = 数组 + 单链表

当JDK1.8及以后： hash = 数组 + 单链表 + 红黑树

什么时候单链表编程红黑树？

当hash表中数组容量 >= 64 并且同一个索引处的单列表的节点个数> 8时，单链表会变成红黑树。

1.4 LinkedHashMap类详解

1.4.1 LinkedHashMap类概述

LinkedHashMap是 HashMap 集合的子集合，它的底层采用“哈希表+链表”结构，能够保证元素存与取的顺序完全一致。

LinkedHashMap 类和HashMap用法几乎一模一样。当然，LinkedHashMap 集合中的 key 不能重复，我们需要通过重写 hashCode() 与 equals()方法来保证键的唯一。另外，key的取值可以为null，并且如果key发生了重复，则做覆盖操作。

1.5 Hashtable类详解

1.5.1 Hashtable类概述

Hashtable类和HashMap用法几乎一模一样，它的底层依旧采用哈希表结构，查询速度快，在很多情况下它们可以互用。

只不过Hashtable类继承于Dictionary类并实现了Map接口，HashMap类只是Map接口的实现类。另外Hashtable的方法添加了Synchronized关键字确保线程同步检查，效率较低。

在Hashtable类中，put(K key, V value)方法就增加了synchronized同步标记。

相比较于HashMap类，Hashtable类中还包含了许多传统的方法，显然这些方法都不属于集合框架，在Hashtable类中常见的传统方法如下所示：

方法名	说明
public synchronized Enumeration<K> keys()	遍历所有的key，keys()方法类似于keySet()方法
public synchronized Enumeration<V> elements()	遍历所有的value，elements()方法类似于values()方法

通过Hashtable的keys()和elements()方法，返回的结果是Enumeration类型，此处Enumeration类的功能类似于Iterator类，都可以实现迭代器的效果，常见的方法如下：

方法名	说明
boolean hasMoreElements();	判断集合中是否有下一个元素可以迭代，如果有，则返回 true。
E nextElement();	返回迭代的下一个元素，并把指针向后移动一位。

1.6 二叉树和红黑二叉树

1.6.1 二叉树的定义

二叉树是树形结构的一个重要类型。许多实际问题抽象出来的数据结构往往是二叉树的形式，即使是一般的树也能简单地转换为二叉树，而且二叉树的存储结构及其算法都较为简单，因此二叉树显得特别重要。

二叉树(BinaryTree)由一个结点及两棵互不相交的、分别称作这个根的左子树和右子树的二叉树组成。

排序二叉树特性如下：

(1) 左子树上所有节点的值均小于它的根节点的值。

(2) 右子树上所有节点的值均大于它的根节点的值。

排序二叉树本身实现了排序功能，可以快速检索。但如果插入的节点集本身就是有序的，要么是由小到大排列，要么是由大到小排列，那么最后得到的排序二叉树将变成普通的链表，其检索效率就会很差。比如上面的数据【14, 12, 23, 4, 16, 13, 8, 3】，我们先进行排序变成：【3, 4, 8, 12, 13, 14, 16, 23】，然后存储到排序二叉树中，显然就变成了链表

1.6.2 平衡二叉树(AVL)

为了避免出现上述一边倒的存储，科学家提出了“平衡二叉树”。

在平衡二叉树中任何节点的两个子树的高度最大差别为1，所以它也被称为高度平衡树。 增加和删除节点可能需要通过一次或多次树旋转来重新平衡这个树。

节点的平衡因子是它的左子树的高度减去它的右子树的高度(有时相反)。带有平衡因子1、0或 -1的节点被认为是平衡的。带有平衡因子-2或2的节点被认为是不平衡的，并需要重新平衡这个树。

1.6.3 红黑二叉树

红黑二叉树(简称：红黑树)，它首先是一棵二叉树，同时也是一棵自平衡的排序二叉树。

这些约束强化了红黑树的关键性质：从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。这样就让树大致上是平衡的。

红黑树是一个更高效的检索二叉树，JDK 提供的集合类 TreeMap、TreeSet 本身就是一个红黑树的实现。

红黑树的基本操作：插入、删除、左旋、右旋、着色。每插入或者删除一个节点，可能会导致树不在符合红黑树的特征，需要进行修复，进行 “左旋、右旋、着色” 操作，使树继续保持红黑树的特性。

1.7 TreeMap类使用详解

1.7.1 TreeMap源码分析

TreeMap是一个有序的key-value集合，它是通过红黑二叉树来实现的。

在源码中，成员变量root用来存储整个树的根节点，里面存储了本身数据、左节点、右节点、父节点以及节点颜色，从这里我们就能确定TreeMap底层采用的就是红黑二叉树来实现。

TreeMap基于红黑树实现，TreeMap中支持2种排序方式，方式一：根据其键的自然顺序进行排序（也就是使用Comparable接口来排序），方式二：根据创建映射时提供的Comparator接口进行排序，具体取决于其使用的构造方法，常用的构造方法如下：

方法名	说明
public TreeMap()	创建一个空TreeMap，keys按照自然排序
public TreeMap(Comparator<? super K> comparator)	创建一个空TreeMap，按照指定的comparator排序

TreeMap和HashMap用法大致相同，不同点是TreeMap可以用来排序，HashMap和TreeMap比较：

1、HashMap是key无序的(key可以为null)，而TreeMap是key有序的（key不能为null）。

2、HashMap效率略高于TreeMap，在需要对key进行排序的Map时才选用TreeMap。

深巷与猫i

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
双列集合&数据结构

给 HashMap 中存放自定义对象时，如果自定义对象作为 key 存在，这时要保证对象唯一，必须重写对象的 hashCode 和 equals 方法，建立自己的比较方式，才能保证 HashMap 集合中的对象唯一。注意：当自定义对象作为HashMap的key时，一定得重写自定义类的 hashCode 和 equals 方法，建立自己的比较方式，才能保证 HashMap 集合中的对象唯一.LinkedHashMap是 HashMap 集合的子集合，它的底层采用“哈希表+链表。
复制链接

扫一扫