明明白白的Java集合框架_java fall框架-CSDN博客

本文链接：https://blog.csdn.net/fall_hat/article/details/104758024

本文深入解析Java集合框架，包括List、Set、Map等核心接口及其实现类如HashSet、HashMap的特点与工作原理。详细阐述了HashSet如何利用HashMap实现无重复元素存储，以及HashMap的哈希冲突解决策略和扩容机制。同时，探讨了高并发环境下HashMap可能出现的死锁问题及解决方案。

Java集合框架图

在这里插入图片描述

List

Set

HashSet

HashSet实际上是一个HashMap实例，都是一个存放链表的数组。它不保证存储元素的迭代顺序；此类允许使用null元素。HashSet中不允许有重复元素，这是因为HashSet是基于HashMap实现的，HashSet中的元素都存放在HashMap的key上面，而value中的值都是统一的一个固定对象private static final Object PRESENT = new Object();

HashSet中add方法调用的是底层HashMap中的put()方法，而如果是在HashMap中调用put，首先会判断key是否存在，如果key存在则修改value值，如果key不存在这插入这个key-value。而在set中，因为value值没有用，也就不存在修改value值的说法，因此往HashSet中添加元素，首先判断元素（也就是key）是否存在，如果不存在这插入，如果存在着不插入，这样HashSet中就不存在重复值。

所以判断key是否存在就要重写元素的类的equals()和hashCode()方法，当向Set中添加对象时，首先调用此对象所在类的hashCode()方法，计算此对象的哈希值，此哈希值决定了此对象在Set中存放的位置；若此位置没有被存储对象则直接存储，若已有对象则通过对象所在类的equals()比较两个对象是否相同，相同则不能被添加。

hashset存储原理

当向HashSet集合存储一个元素时，如果两个对象的hashCode()方法返回值相等，但是两个对象通过equals()方法比较返回false，HashSet会以链式结构将两个对象保存在同一位置，这将导致性能下降，因此在编码时应避免出现这种情况。

HashSet查找原理

基于HashSet以上的存储原理，在查找元素时，HashSet先计算元素的HashCode值（也就是调用对象的hashCode方法的返回值），然后直接到hashCode值对应的位置去取出元素即可。

Map

HashMap：它根据键的hashCode值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历顺序却是不确定的。 HashMap最多只允许一条记录的键为null，允许多条记录的值为null。HashMap非线程安全，即任一时刻可以有多个线程同时写HashMap，可能会导致数据的不一致。如果需要满足线程安全，可以用 Collections的synchronizedMap方法使HashMap具有线程安全的能力，或者使用ConcurrentHashMap。

(2) Hashtable：Hashtable是遗留类，很多映射的常用功能与HashMap类似，不同的是它承自Dictionary类，并且是线程安全的，任一时间只有一个线程能写Hashtable，并发性不如ConcurrentHashMap，因为ConcurrentHashMap引入了分段锁。Hashtable不建议在新代码中使用，不需要线程安全的场合可以用HashMap替换，需要线程安全的场合可以用ConcurrentHashMap替换。

(3) LinkedHashMap：LinkedHashMap是HashMap的一个子类，保存了记录的插入顺序，在用Iterator遍历LinkedHashMap时，先得到的记录肯定是先插入的，也可以在构造时带参数，按照访问次序排序。

(4) TreeMap：TreeMap实现SortedMap接口，能够把它保存的记录根据键排序，默认是按键值的升序排序，也可以指定排序的比较器，当用Iterator遍历TreeMap时，得到的记录是排过序的。如果使用排序的映射，建议使用TreeMap。在使用TreeMap时，key必须实现Comparable接口或者在构造TreeMap传入自定义的Comparator，否则会在运行时抛出java.lang.ClassCastException类型的异常。

HashMap

数据结构

(1) 从源码可知，HashMap类中有一个非常重要的字段，就是 Node[] table，即哈希桶数组，明显它是一个Node的数组。

final int hash;    //用来定位数组索引位置
        final K key;
        V value;
        Node<K,V> next;   //链表的下一个node

        Node(int hash, K key, V value, Node<K,V> next) { ... }
        public final K getKey(){ ... }
        public final V getValue() { ... }
        public final String toString() { ... }
        public final int hashCode() { ... }
        public final V setValue(V newValue) { ... }
        public final boolean equals(Object o) { ... }

Node是HashMap的一个内部类，实现了Map.Entry接口，本质是就是一个映射(键值对)。
null key总是存放在Entry[]数组的第一个元素.

hash冲突如何解决

扩容流程

在理解Hash和扩容流程之前，我们得先了解下HashMap的几个字段。从HashMap的默认构造函数源码可知，构造函数就是对下面几个字段进行初始化，源码如下：

	 int threshold;             // 所能容纳的key-value对极限 
     final float loadFactor;    // 负载因子
     int modCount;  
     int size;

https://tech.meituan.com/2016/06/24/java-hashmap.html

高并发情况下，为什么HashMap出现死锁？

我们看到默认HashMap的初始长度是16，比较小，每一次put的时候，都会检查当前hashmap中的元素个数是否超过数组大小*loadFactor时，是就会进行数组扩容，loadFactor的默认值为0.75。如果超过，扩大HashMap容量一倍，整个表里的所有元素都需要按照新的hash算法被算一遍，这个代价较大。提到死锁，对于HashMap来说，貌似只能和链表操作有关。

正常ReHash过程，可以看到，每个元素重新算hash值，将链表翻转，放到对应的bucket上的链表中。这个过程在并发环境下会发生错误，导致数组链表中的链表形成循环链表，在后面的get操作时e = e.next操作无限循环，无限循环出现。HashMap在并发环境下多线程put后可能导致get死循环，具体表现为CPU使用率100%。

多线程put的时候可能导致元素丢失。两个线程发生碰撞，就可能出现覆盖丢失的情况。那么就要使用线程安全的哈希表容器。如下：使用Hashtable 类，Hashtable是线程安全的；使用java并发包（java.util.concurrent）下的ConcurrentHashMap，ConcurrentHashMap实现了更高级的线程安全。或者使用synchronizedMap() 同步方法包装 HashMap object，得到线程安全的Map，并在此Map上进行操作。