HashMap源码分析

mhhhb

已于 2022-03-14 21:06:14 修改

阅读量1.2k

点赞数

分类专栏： Java 面试题文章标签： java

于 2022-03-14 10:08:53 首次发布

本文链接：https://blog.csdn.net/mhhhb/article/details/123374131

版权

Java 同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

面试题

3 篇文章 0 订阅

订阅专栏

本文分析是基于JDK11中的HashMap源码

概念

HashMap是由数组+链表组成, 它是线程不安全的, 且允许key和value的值为null。遍历时无序。
在JDK1.8中, 当数组中的元素大于64并且链表元素大于8时会转换为红黑树结构。
HashMap中的数组又称为哈希桶, 每个桶里存放的是链表, 链表中的每个节点就是HashMap的元素。
哈希桶的长度为2的N次方

基本组成

HashMap继承了AbstractMap, 实现了Map, Cloneable, Serializable接口

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
    }

结构

属性

	//默认初始容量16
	static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; 
	
	static final int TREEIFY_THRESHOLD = 8;
	
	static final int UNTREEIFY_THRESHOLD = 6;
	
	/*
	最小树形化容量阈值: 当哈希表中的容量 > 该值时, 才允许转换为红黑树
	为了避免进行扩容、树形化选择的冲突, 此值不能小于4*TREEIFY_THRESHOLD
	*/
	static final int MIN_TREEIFY_CAPACITY = 64;
	//最大容量 2的30次方
    static final int MAXIMUM_CAPACITY = 1 << 30;
	//默认的加载因子
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
    
    //哈希桶, 存放链表 长度是2的N次方,初始化时为0
    transient Node<K,V>[] table;
	
	//HashMap的元素数量的阈值, 当HashMap内元素数量超过阈值时, 会发生扩容resize()
	int threshold;
	
	//加载因子，用于计算哈希表元素数量的阈值。  threshold = 哈希桶.length * loadFactor;
    final float loadFactor;

构造方法

	
	
	//默认构造方法, 加载因子默认为0.75f
	public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
    }

	//制定初始化容量的构造方法
	public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }
	
	//新建一个HashMap, 同时将另一个map m中的所有元素加入表中
	public HashMap(Map<? extends K, ? extends V> m) {
        this.loadFactor = DEFAULT_LOAD_FACTOR;
        putMapEntries(m, false);
    }

	//制定初始化容量以及加载因子
	public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

扩容方法

final Node<K,V>[] resize() {
	//oldTab 为当前表的哈希桶
    Node<K,V>[] oldTab = table; 
    //当前哈希桶的容量 length
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    //当前的阈值
    int oldThr = threshold;
    //初始化新的容量和阈值为0
    int newCap, newThr = 0;
    if (oldCap > 0) {  //如果当前容量大于0
        if (oldCap >= MAXIMUM_CAPACITY) {  //如果当前容量已经到达上限
        	//则设置阈值是2的31次方-1 并返回哈希桶不再扩容
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY) //如果旧的容量大于等于默认初始容量16
            //新阈值等于旧阈值的两倍
            newThr = oldThr << 1;
    }
    else if (oldThr > 0) //如果当前表是空的，但是有阈值。代表是初始化时指定了容量、阈值的情况
        newCap = oldThr;  //那么新表的容量就等于旧的阈值
    else {  //如果当前表是空的，而且也没有阈值。代表是初始化时没有任何容量/阈值参数的情况
        //此时新表的容量为默认的容量 16
        newCap = DEFAULT_INITIAL_CAPACITY;  
        //新的阈值为默认容量16 * 默认加载因子0.75f = 12
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);  
    }
    if (newThr == 0) {  //如果新的阈值是0，对应的是  当前表是空的，但是有阈值的情况
        //根据新表容量和加载因子求出新的阈值
        float ft = (float)newCap * loadFactor;
        //进行越界修复
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    //更新阈值
    threshold = newThr;
    //根据新的容量 构建新的哈希桶
    @SuppressWarnings({"rawtypes","unchecked"})
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    //更新哈希桶引用
    table = newTab;
    //如果以前的哈希桶中有元素, 将当前哈希桶中的所有节点转移到新的哈希桶中
    if (oldTab != null) {
        for (int j = 0; j < oldCap; ++j) {  //遍历旧哈希桶
        	//取出当前的节点 e
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {  //如果当前桶中有元素,则将链表赋值给e
                oldTab[j] = null;  //将原哈希桶置空以便GC
                if (e.next == null)  //如果当前链表中就一个元素，（没有发生哈希碰撞）
                    //直接将这个元素放置在新的哈希桶中, 此处取下标用的是哈希值与桶长度-1, 因为哈希桶的长度是2的n次方, 这样做相当于取模运算
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)  //如果发生过哈希碰撞 ,而且是节点数超过8个，转化成了红黑树
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { //如果发生过哈希碰撞，节点数小于8个。则要根据链表上每个节点的哈希值，依次放入新哈希桶对应下标位置。
                    //因为扩容是容量翻倍，所以原链表上的每个节点，现在可能存放在原来的下标，即low位， 或者扩容后的下标，即high位。high位=low位+原哈希桶容量
                    //低位链表的头结点、尾节点
                    Node<K,V> loHead = null, loTail = null;
                    //高位链表的头节点、尾节点
                    Node<K,V> hiHead = null, hiTail = null;
                    //临时节点 存放e的下一个节点
                    Node<K,V> next;
                    do {
                        next = e.next;
                        if ((e.hash & oldCap) == 0) {  //利用哈希值与旧的容量，可以得到哈希值取模后，是大于等于oldCap还是小于oldCap，等于0代表小于oldCap，应该存放在低位，否则存放在高位
                            //给头尾节点指针赋值
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {  //高位也是相同的逻辑
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);  //循环直到链表结束
                    //将低位链表存放在原index处，
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    //将高位链表存放在新index处
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

putVal方法

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
     //tab存放 当前的哈希桶， p用作临时链表节点  
     Node<K,V>[] tab; Node<K,V> p; int n, i;
     //如果当前哈希表是空的，代表是初始化
     if ((tab = table) == null || (n = tab.length) == 0)
         //那么直接去扩容哈希表，并且将扩容后的哈希桶长度赋值给n
         n = (tab = resize()).length;
     //如果当前index的节点是空的，表示没有发生哈希碰撞。 直接构建一个新节点Node，挂载在index处即可。
     //这里再啰嗦一下，index 是利用 哈希值 & 哈希桶的长度-1，替代模运算
     if ((p = tab[i = (n - 1) & hash]) == null)
         tab[i] = newNode(hash, key, value, null);
     else {//否则 发生了哈希冲突。
         //e
         Node<K,V> e; K k;
         //如果哈希值相等，key也相等，则是覆盖value操作
         if (p.hash == hash &&
             ((k = p.key) == key || (key != null && key.equals(k))))
             e = p;//将当前节点引用赋值给e
         else if (p instanceof TreeNode)//红黑树暂且不谈
             e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
         else {//不是覆盖操作，则插入一个普通链表节点
             //遍历链表
             for (int binCount = 0; ; ++binCount) {
                 if ((e = p.next) == null) {//遍历到尾部，追加新节点到尾部
                     p.next = newNode(hash, key, value, null);
                     //如果追加节点后，链表数量》=8，则转化为红黑树
                     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                         treeifyBin(tab, hash);
                     break;
                 }
                 //如果找到了要覆盖的节点
                 if (e.hash == hash &&
                     ((k = e.key) == key || (key != null && key.equals(k))))
                     break;
                 p = e;
             }
         }
         //如果e不是null，说明有需要覆盖的节点，
         if (e != null) { // existing mapping for key
             //则覆盖节点值，并返回原oldValue
             V oldValue = e.value;
             if (!onlyIfAbsent || oldValue == null)
                 e.value = value;
             //这是一个空实现的函数，用作LinkedHashMap重写使用。
             afterNodeAccess(e);
             return oldValue;
         }
     }
     //如果执行到了这里，说明插入了一个新的节点，所以会修改modCount，以及返回null。

     //修改modCount
     ++modCount;
     //更新size，并判断是否需要扩容。
     if (++size > threshold)
         resize();
     //这是一个空实现的函数，用作LinkedHashMap重写使用。
     afterNodeInsertion(evict);
     return null;
 }

newNode方法

	// Create a regular (non-tree) node
    Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
        return new Node<>(hash, key, value, next);
    }

其他方法

	//根据期望容量cap，返回2的n次方形式的 哈希桶的实际容量 length。 返回值一般会>=cap 
    static final int tableSizeFor(int cap) {
    //经过下面的 或 和位移 运算， n最终各位都是1。
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        //判断n是否越界，返回 2的n次方作为 table（哈希桶）的阈值
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }
	
	//将另一个Map的所有元素加入表中，参数evict初始化时为false，其他情况为true
    final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
        //拿到m的元素数量
        int s = m.size();
        //如果数量大于0
        if (s > 0) {
            //如果当前表是空的
            if (table == null) { // pre-size
                //根据m的元素数量和当前表的加载因子，计算出阈值
                float ft = ((float)s / loadFactor) + 1.0F;
                //修正阈值的边界 不能超过MAXIMUM_CAPACITY
                int t = ((ft < (float)MAXIMUM_CAPACITY) ?
                         (int)ft : MAXIMUM_CAPACITY);
                //如果新的阈值大于当前阈值
                if (t > threshold)
                    //返回一个 》=新的阈值的 满足2的n次方的阈值
                    threshold = tableSizeFor(t);
            }
            //如果当前元素表不是空的，但是 m的元素数量大于阈值，说明一定要扩容。
            else if (s > threshold)
                resize();
            //遍历 m 依次将元素加入当前表中。
            for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
                K key = e.getKey();
                V value = e.getValue();
                putVal(hash(key), key, value, false, evict);
            }
        }
    }

加载因子为什么是0.75

为什么不是0.5或1.0?

首先如果加载因子比较大, 那么扩容发生的频率就比较低, 与之对应浪费的空间也会比较小。不过发生hash冲突的几率也会变得比较大, 比如加载因子是1的时候, 如果HashMap的长度为128, 那么可能HashMap的实际存储元素数量在64至128之间的比较多, 而这个时间段发生的hash冲突就比较大, 造成数据中其中一条链表较长, 就会影响性能。

而当加载因子比较小的时候, 扩容的频率就会变高, 因此会占用更多的空间, 但元素的存储就比较稀疏, 发生哈希冲突的可能性就比较小, 因此操作性能会比较高, 比如设置成0.5, 相同128长度的HashMap, 当数量达到65的时候就会触发HashMap的扩容, 扩容后长度为256, 256里面只存储了65个元素的话就会有很多的空间被浪费。

所以综合了以上情况就取了0.5到1.0之间的平均数0.75作为加载因子

另外一提, 0.75与泊松分布的关系, 当负载因子等于0.75, 带入泊松分布公式中, 计算出长度为8时, 概率 = 0.00000006, 这个0.00000006概率已经很小了, 所以链表长度为8时, 转换成红黑树。

使用红黑树的原因

红黑树是为了解决二叉查找树的缺陷, 因为二叉查找树在某些情况下回退化成一个线性结构。

红黑树是一种二叉查找树, 同时也是一种弱平衡二叉树, 相对于要求严格的AVL树来说, 它的旋转次数少, 所以对于搜索, 插入(最多两次旋转), 删除(最多三次旋转)操作较多的情况下, 通常使用红黑树。

红黑树在查找, 插入, 删除的性能都是O(logn), 且性能稳定。

小结

运算尽量都用位运算替代
取下标是用哈希值和桶长度-1做与运算 (n-1) & hash , 因为桶的长度是2的n次方, 所以相当于一个取模, 更高效
扩容时, 如果发生哈希碰撞, 节点数小于8个。则要根据链表上每个节点的hash值, 依次放入

链表节点

每个节点(Node)的哈希值, 是将key的hashCode和value的hashCode进行异或运算得到的。

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;  //哈希值
        final K key;
        V value;
        Node<K,V> next;  //链表后置节点

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }
		//每一个节点的hash值，是将key的hashCode 和 value的hashCode异或得到的。
        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }
		
		//设置新的value 同时返回旧value
        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

哈希碰撞和扰动函数

扩容机制

先讲一下插入的原理, 由于原始结构是数据+链表, HashMap通过Key的HashCode, 经过扰动函数处理过后得到Hash值, 然后通过(数组长度 - 1) & Hash判断当前元素存放的位置, 如果当前位置存在元素, 就判断该元素与要存入的元素的hash值以及key是否相同, 如果相同的直接覆盖, 不同的通过拉链法解决冲突, 所谓拉链法就是将链表和数组相结合, 即创建一个链表数组, 数组中每个元素就是一个链表,若遇到Hash冲突, 就将冲突的值加入到链表即可。在JDK1.8之后, 如果数组的长度超过64位, 链表的长度超过8, 就会转换成红黑树以减少搜索时间(TreeMap, TreeSet的底层都用到了红黑树)。

再说一下扩容的过程

判断当前容量大小是否为空, 如果为空(为设置初始值), 则把容量扩容为16
获取key的HashCode, 对HashCode进行扰动处理, 计算出元素的下标
根据下标判断有无hash碰撞, 如果没有, 直接放入哈希桶中
如果发生碰撞, 比较两个key是否相同, 相同则覆盖, 不同则以链表的方式插入到尾部(尾插法)
如果插入过后链表的长度超过了阈值(TREEIFY_THRESHOLD=8), 则把链表转换为红黑树
插入成功后, 如果元素个数达到了阈值(threshold = 哈希桶.length * loadFactor), 则执行扩容操作判断(不超过Integer的最大值)
扩容成功后, 对元素下标进行重新计算

因为底层哈希桶的数据结构是数据, 所以也会涉及到扩容的问题。
在putVal方法的29行调用了一个方法treeifyBin

/**
判断链表长度到达8调用treeifyBin方法转换红黑树
TREEIFY_THRESHOLD的值为8 ，TREEIFY_THRESHOLD-1=7，所以binCount >=7时调用treeifyBin方法
*/
for (int binCount = 0; ; ++binCount) {
    if ((e = p.next) == null) {
        p.next = newNode(hash, key, value, null);
        //如果追加节点后，链表数量>=8，则转化为红黑树
        if (binCount >= TREEIFY_THRESHOLD - 1) 
            treeifyBin(tab, hash);
        break;
    }
}

注意转红黑树链表长度是要超过8, 而不是达到8, binCount的自增是++binCount, 当binCount=0,put的第2个元素,binCount 1对应put的第3个元素,1对以此类推,当binCount=7时此时put的是第9个元素,而上面的已经说了binCount >=7时调用treeifyBin方法,所以链表长度是要超过8。

再来看treeifyBin的代码实现

final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        //判断数组长度是否小于64,小于则进行扩容,否则转红黑树
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }
    }

API方法

JDK1.7和JDK1.8 HashMap的变化

不同点	JDK1.7	JDK1.8
存储结构	数组+链表	数组+链表+红黑树
初始化方式	inflateTable()方法	集成到扩容方法resize()方法
Hash值计算方式	扰动处理=9次扰动=4次位运算+5次异或运算	扰动处理=2次扰动=1次位运算+1次异或运算
存放数据的规则	无冲突时, 存放数据; 冲突时, 存放链表	无冲突时, 存放数据; 冲突 & 数组长度 < 8, 存放到单链表; 冲突&数组长度>64 & 链表长度 >8, 树化并存放在红黑树
插入数据方式	头插法	尾插法(直接插入链表尾部or红黑树)
扩容后存储位置的计算	HashCode ->> 扰动函数 ->> (Hash & length-1)	按照扩容后的规律计算(扩容后的位置 = 原位置 or 原位置 + 旧容量)

HashTable和ConcurrentHashMap

HashMap与HashTable的区别

线程安全, HashMap是非线程安全的, HashTable是线程安全的, HashTable的方法都用synchronized修饰的
效率, 由于线程安全的问题, HashMap的性能优于HashTable
HashMap允许key和value为null, HashTable不允许key和value为null
数据结构, JDK1.8以后HashMap能转换成红黑树, HashTable没有这种功能

ConcurrentHashMap的实现

JDK1.7 ConcurrentHashMap

首先将数据分为一段一段的存储, 然后给每一段数据配一把段锁, 当一个线程占用锁访问其中一个段数据时, 其他段的数据也能被其他线程访问到
在1.7中, ConcurrentHashMap采用了Segment + HashEntry的方式实现:
一个ConcurrentHashMap里包含一个Segment数组, Segment的结构与HashMap类似, 是一种数组+链表结构, 一个Segment包含一个HashEntry数组。每个HashEntry是一个链表结构的元素, 每个Segment守护着一个HashEntry数组里的元素, 当对HashEntry数组进行修改时, 必须获得对应的Segment的锁。

Segment使用了ReentrantLock 可重入锁

JDK1.8 ConcurrentHashMap

放弃了Segment臃肿的设计, 取而代之的是采用Node + CAS + Synchronized来保证线程安全, synchronized只锁定当前链表的首节点或红黑树的首节点, 这样只要hash不冲突, 就不会产生并发。

Node是ConcurrentHashMap中最核心最重要的内部类, Node存储K-V, 所有插入ConcurrentHashMap中的数据都会包装在Node中。在HashMap中其核心数据结构是链表, 而在ConcurrentHashMap中如果链表的数据过长会转换为红黑树来处理, 通过将链表的节点包装成TreeNode, 放在TreeBin中, 然后经由TreeBin完成红黑树的转换。TreeBin不负责键值对的包装, 用于在链表转换为红黑树时, 包装TreeNode节点, 用来构建红黑树。
在这里插入图片描述

总结

HashMap的源码中, 在进行运算时都优先使用各种位运算来替代常规运算, 以此来提升效率

与运算替代模运算

hash & (table.length-1) 替代 hash % (table.length)
if ((e.hash & oldCap) == 0) 判断扩容后, 节点e处于低区还是高区
扩容后立即将老数组的引用置为null, 以便GC回收
扩容操作时，会new一个新的Node数组作为哈希桶，然后将原哈希表中的所有数据(Node节点)移动到新的哈希桶中，相当于对原哈希表中所有的数据重新做了一个put操作。所以性能消耗很大，可想而知，在哈希表的容量越大时，性能消耗越明显。