JAVA笔记 —— HashMap（1.7）底层实现原理

最新推荐文章于 2023-03-16 10:26:03 发布

Dear，别闹！

最新推荐文章于 2023-03-16 10:26:03 发布

阅读量707

点赞数

分类专栏： JAVA 源码文章标签： HashMap 源码 JAVA

本文链接：https://blog.csdn.net/qq_41677196/article/details/83147004

版权

JAVA 同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

源码

2 篇文章 0 订阅

订阅专栏

HashMap 底层实现原理

　　两年前，我总觉得很多东西会用就行，不喜欢总结，不喜欢深入了解，这或许就是因为当时太懒。一年前，我觉得必须要把在工作积累到的东西、遇到的问题及解决方法给总结记录下来，以便快速提升自己，所以从那时候起就开始写 txt 文本，做一些简单记录。而至今，工作近三年，我越来越觉得了解底层原理的重要性。

一、HashMap本质：数组 + 链表

　　在JAVA数据结构中，常用数组和链表这两种结构来存储数据。

　　数组的存储区间(在内存的地址)是连续的，其大小固定，一旦分配就不能被其他引用占用，占用内存严重。数组的特点是：寻址容易，查询操作快，时间复杂度为O(1)；但插入和删除的操作比较慢，时间复杂度是O(n)。

　　链表的存储区间是非连续（离散）的，其大小不固定，可以扩容，占用内存比较宽松，故空间复杂度很小。链表的特点是：寻址困难，查询速度慢，复杂度是O(n)，插入快，时间复杂度为O(1)。

　　HashMap的数据结构：数组 + 链表（单链表），结合了两者的优点。HashMap的主干是一个Entry数组，数组每一个元素的初始值都是Null。Entry是HashMap的基本组成单元，每一个Entry包含一个key-value键值对。

　　HashMap的初始长度为16，且每次自动扩容或者手动初始化的时候必须是2的幂（以2次方增长）。所以，HashMap 的容量值都是 2^n 大小。

　　Entry是HashMap中的一个静态内部类。源码如下：

    static class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;  // 存储指向下一个Entry的引用，单链表结构
        int hash;         // 对key的hashcode值进行hash运算后得到的值，存储在Entry，避免重复计算

        /**
         * Creates new entry.
         */
        Entry(int h, K k, V v, Entry<K,V> n) {
            value = v;
            next = n;
            key = k;
            hash = h;
        }

        public final K getKey() {
            return key;
        }

        public final V getValue() {
            return value;
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (!(o instanceof Map.Entry))
                return false;
            Map.Entry e = (Map.Entry)o;
            Object k1 = getKey();
            Object k2 = e.getKey();
            if (k1 == k2 || (k1 != null && k1.equals(k2))) {
                Object v1 = getValue();
                Object v2 = e.getValue();
                if (v1 == v2 || (v1 != null && v1.equals(v2)))
                    return true;
            }
            return false;
        }

        public final int hashCode() {
            return Objects.hashCode(getKey()) ^ Objects.hashCode(getValue());
        }

        public final String toString() {
            return getKey() + "=" + getValue();
        }

        /**
         * This method is invoked whenever the value in an entry is
         * overwritten by an invocation of put(k,v) for a key k that's already
         * in the HashMap.
         */
        void recordAccess(HashMap<K,V> m) {
        }

        /**
         * This method is invoked whenever the entry is
         * removed from the table.
         */
        void recordRemoval(HashMap<K,V> m) {
        }
    }

二、HashMap -- Put 方法实现

方法实现：将指定值与此映射中的指定键关联。如果映射以前包含了键的映射，则值被替换。

　　执行put存值时，HashMap首先会获取key的哈希值，通过哈希值快速找到某个存放位置，这个位置可以被称之为bucketIndex。当计算出来的bucketIndex相同(hash碰撞)时，则通过hashCode和equals最终判断出K(key)是否已存在，如果已存在，则使用新V值替换旧V值，并返回旧V值；如果不存在，则存放新的键值对<K, V>到bucketIndex位置。对于一个key，如果hashCode不同，equals一定为false，如果hashCode相同，equals不一定为true。

　　源码如下：

    // 将指定值与此映射中的指定键关联。如果映射以前包含了键的映射，则值被替换。
    public V put(K key, V value) {
        if (table == EMPTY_TABLE) {
            inflateTable(threshold);
        }
        // 当key为null，调用putForNullKey方法，将该键值对添加到table[0]中，这是HashMap允许为null的原因 
        if (key == null)
            return putForNullKey(value);
        // 计算key的hash值
        int hash = hash(key);
        // 计算key hash 值在 table 数组中的位置
        int i = indexFor(hash, table.length);
        // 从i出开始迭代 e,找到 key 保存的位置 
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
            Object k;
            // 判断该条链上是否有hash值相同的(key相同)  
            // 若存在相同，则直接覆盖value，返回旧value，equals方法是hash碰撞时才会执行的方法 
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;   // 旧值 = 新值
                e.value = value;
                e.recordAccess(this);
                return oldValue;        // 返回旧值 
            }
        }
        // modCount++代表修改次数+1，与迭代相关
        modCount++;
        // 增加新的节点，将key、value添加至i位置处
        addEntry(hash, key, value, i);
        return null;
    }

例子 : hashMap.put(“clear”, 888)

　　首先计算key的hash值：int hash = hash(“clear”)；

　　接着计算key hash 值在 table 数组中的位置bucketIndex：int i = indexFor(hash, table.length)；

　　假定最后计算出的bucketIndex是1，那么结果如下：

　　HashMap通过键的hashCode存取元素，HashCode是使用Key通过Hash函数计算出来的，当插入的Entry越来越多时，由于不同的Key，通过此Hash函数可能会算的同样的HashCode，即发生了HashCode碰撞，也叫Hash冲突。此时，HashMap通过单链表来解决，把对应节点以链表的形式存储，将新元素加入链表表头，通过next指向原有的元素。

　　头插法：新节点都增加到头部，新节点的next指向老节点；如下图中新的 Entry 2 指向旧的 Entry 1 。

Put 方法执行流程：

　　1、首先判断key是否为null，当插入的key为null时，调用putForNullKey方法，默认存储到table[0]开头的链表。然后遍历table[0]的链表的每个节点Entry，如果发现其中存在节点Entry的key为null，就替换新的value，然后返回旧的value，如果没发现key等于null的节点Entry，就增加新的节点。

    /**
     * Offloaded version of put for null keys
     * 获取key为null的键值对，HashMap将此键值对存储到table[0]的位置 
     */
    private V putForNullKey(V value) {
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
        modCount++;   // 修改次数+1
        addEntry(0, null, value, 0);  // 增加新的节点到 table[0] 位置
        return null;  // 返回 null
    }

　　2、计算key的hash值，int hash = hash(key.hashCode())，再用计算的结果二次hash（indexFor(hash, table.length))，找到Entry数组的索引 i 。

　　3、遍历以table[i]为头节点的链表，如果发现hash，key都相同的节点时，就替换为新的value，然后返回旧的value，只有hash相同时，循环内并没有做任何处理。

　　4、对于hash相同但key不相同的节点以及hash不相同的节点，就增加新的节点（ addEntry() ）。

    void addEntry(int hash, K key, V value, int bucketIndex) {
        if ((size >= threshold) && (null != table[bucketIndex])) {
            resize(2 * table.length);
            hash = (null != key) ? hash(key) : 0;
            bucketIndex = indexFor(hash, table.length);
        }

        createEntry(hash, key, value, bucketIndex);
    }

　　5、HashMap的扩容问题。由于table数组的默认初始长度是固定的（16），随着HashMap中的元素数量越来越多的时候，发生hash碰撞的概率就越来越大，所产生的链表长度就会越来越长，这样就会影响HashMap的查询速度。为了提高HashMap的查询效率，就要对HashMap的数组table进行扩容。系统必须要在某个临界点进行扩容处理，该临界点在当HashMap中元素的数量等于table数组长度 * 加载因子（如 16 * 0.75 = 12 ）。

　　resize(2 * table.length)；// 当HashMap中元素个数超过16*0.75=12时，就把数组的大小扩展为 2*16=32，即扩大一倍。

void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }

        Entry[] newTable = new Entry[newCapacity];
        transfer(newTable, initHashSeedAsNeeded(newCapacity));
        table = newTable;
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }

　　扩容是一个非常耗时耗性能的过程，因为它需要重新计算每个元素在新table数组中的位置并进行复制处理。所以如果我们已经预知HashMap中元素的个数，那么预设元素的个数能够有效的提高HashMap的性能。

三、HashMap -- Get 方法实现

Get 方法执行流程：

首先会判断key，若为null，调用getForNullKey方法返回相对应的value；

源码如下：

   public V get(Object key) {
        if (key == null)
            return getForNullKey();
        Entry<K,V> entry = getEntry(key);
        return null == entry ? null : entry.getValue();
    }

   private V getForNullKey() {
        if (size == 0) {
            return null;
        }
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null)
                return e.value;
        }
        return null;
    }

把输入的Key做一次Hash映射，得到对应的index：int hash = (key == null) ? 0 : hash(“clear”)；由于存在Hash冲突，同一个位置有可能匹配到多个Entry，这时候就需要顺着对应链表的头节点，一个一个向下来查找。 e.next

   final Entry<K,V> getEntry(Object key) {
        if (size == 0) {
            return null;
        }
        int hash = (key == null) ? 0 : hash(key);
        for (Entry<K,V> e = table[indexFor(hash, table.length)];
             e != null;
             e = e.next) {
            Object k;
            if (e.hash == hash &&
                ((k = e.key) == key || (key != null && key.equals(k))))
                return e;
        }
        return null;
    }

四、HashMap的构造函数

　　public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable { ... }

　　HashMap实现了Map接口，继承AbstractMap。其中Map接口定义了键映射到值的规则，而AbstractMap类提供 Map 接口的骨干实现。

　　HashMap提供了三个构造函数：

　　HashMap()：构造一个具有默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap。

　　HashMap(int initialCapacity)：构造一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap。

HashMap(int initialCapacity, float loadFactor)：构造一个带指定初始容量和指定加载因子的空 HashMap。

　　源码如下：

    // HashMap的三个构造函数  -- 源码查看
    /**
     * Constructs an empty <tt>HashMap</tt> with the default initial capacity (16) and the default load factor (0.75).
     *使用默认初始容量（16）和默认负载因子（0.75）来构造空<TT> HashMap </TT>
     */
    public HashMap() {
        this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
    }

    /**
     * Constructs an empty <tt>HashMap</tt> with the specified initial capacity and the default load factor (0.75).
     * 用指定的初始容量和默认负载因子（0.75）来构造空<TT> HashMap </TT>
     * 如果初始容量为负值，则抛出非法的异常。
     */
    public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }

    /**
     * Constructs an empty <tt>HashMap</tt> with the specified initial capacity and load factor.
     * 用指定的初始容量和负载系数 来构造空<TT> HashMap </TT>
     * initialCapacity 设置的初始化容量,或者说是 HashMap 扩充数组时的阀值  
     * loadFactor 负载因子，默认时 0.75  
     * 如果初始容量为负值或负载因子为非正，则抛出非法逻辑异常   
     */
    public HashMap(int initialCapacity, float loadFactor) {
        // 初始容量不能<0 
        if (initialCapacity < 0)             
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        // 初始容量不能 > 最大容量值，HashMap的最大容量值为2^30
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        // 负载因子不能 < 0 
        if (loadFactor <= 0 || Float.isNaN(loadFactor))         
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);

        this.loadFactor = loadFactor;
        threshold = initialCapacity;
        init();
    }

五、HashMap线程不安全原因

　　Hashmap在 HashMap.Size >= Capacity * LoadFactor 时，就会调用 resize 方法，进行扩容和ReHash两个步骤。此时，若在单线程情况下，rehash 不会出现任何问题；若在多线程情况下，rehash 则可能会导致hashmap出现链表闭环，程序就会进入死循环，所以HashMap是非线程安全的。

　　因此，在高并发场景下，我们通常采用另一个集合类ConcurrentHashMap，这个集合类兼顾了线程安全和性能。

六、总结

　　1、HashMap结合了数组和(单)链表的优点，使用Hash算法加快访问速度，使用链表解决hash碰撞冲突的问题，其中数组的每个元素是单链表的头结点。
　　2、HashMap的put方法中，当HashMap中元素的数量大于等于table数组长度 * 加载因子时，要对hashMap进行扩容，扩容过程始终以2次方增长，因此，HashMap 的容量一定是2的整数次幂，即 2^n 。
　　3、从HashMap的put和get方法中可以看出，HashMap是泛型类，key和value可以为任何类型，包括null类型。key为null的键值对永远都放在以table[0]为头结点的中，当然不一定是存放在头结点table[0]中。
　　4、HashMap有三个构造函数，有两个重要参数：初始容量和加载因子。默认初始容量（16）和默认负载因子（0.75）。
　　5、HashMap非线程安全。