HashMap底层实现分析

最新推荐文章于 2024-05-01 12:10:01 发布

huhahuha_

最新推荐文章于 2024-05-01 12:10:01 发布

阅读量264

点赞数

文章标签： HashMap

本文链接：https://blog.csdn.net/huhahuha_/article/details/84401946

版权

一. HashMap 概述

HashMap根据键的 hashCode 值存储数据, 大多数情况下可以直接定位到它的值, 因而具有很快的访问速度, 但遍历的顺序却是不确定的. HashMap 最多只允许一条记录的 key为null, 但是允许多条记录的 value值为null. HashMap是飞线程安全的, 即任一时刻如果有多条线程同时访问 HashMap, 可能会造成数据的不一致性.

在 JDK1.6, JDK1.7 中, HashMap 采用数组(位桶) + 链表实现, 在处个理 hash冲突时, 同一 hash值的元素都存储在一个链表中. 但是当位于一个桶中的元素较多, 即 hash值相等的元素较多时, 通过 key值依次查找的效率较低.

在 JDk1.8中, HashMap是采用数组 + 链表 + 红黑树实现的. 当链表长度超过阈值(8)时. 将链表转换为红黑树, 从而提高了查找效率.

二.HashMap实现原理

1.HashMap底层有一个用来存储元素的数组, 当添加一个元素 (key-value对)时, 先计算该元素 key的hash值, 以确定此元素在数组中的插入位置, 但可能存在同一hash值的元素已被放在数组同一位置, 如果该元素与数组中的元素不相等(通过equals方法返回false), 这时就添加到同一hash值元素的后面, 它们在数组的同一位置, 但是形成了链表, 当链表长度大于 HashMap底层规定的长度时, 链表就转换为红黑树. 以提高查找效率.

HashMap原理图:

2. HashMap 底层数据结构

用来存储数据元素(key-value对)的底层数组. Node<K,V> 其实就是HashMap 底层的 key-value对, Node<K,V>代表了HashMap中的一个键值对.

Node<K,V> 的数据结构实现

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

从上面源码可以看出, HashMap底层实际上是使用 Node<K,V>[] table 哈希桶数组来存储 Node 类型结点. Node 是HashMap的一个内部类, 实现了 Map.Entry接口, 本质上是一个键值对映射. 原理图中的一个黑色结点就是一个 Node.

3.HashMap的构造方法

先看一下主要的类字段代表的含义.

//如果使用空构造器,则默认HashMap的table数组初始化长度为(1<<4),也就是16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;

//所允许的table数组的最大长度
static final int MAXIMUM_CAPACITY = 1 << 30;

//负载因子0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f;

//当链表长度达到8时,将链表转换为红黑树
static final int TREEIFY_THRESHOLD = 8;

//所能容纳的key-value对的极限
int threshold;

//负载因子
final float loadFactor;

//用于fail-fast机制的实现
transient int modCount;

//HashMap中存储的元素的个数
transient int size;

构造方法

有四种构造方法, 当使用无参构造来创建HashMap集合时, 负载因子默认为 0.75.

public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
    }



public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }



public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

public HashMap(Map<? extends K, ? extends V> m) {
        this.loadFactor = DEFAULT_LOAD_FACTOR;
        putMapEntries(m, false);
    }

三. HashMap的存取机制

put()方法源码分析

public V put(K key, V value) {
        //调用hash()方法来实现对key值的hashCode值的高位运算
        return putVal(hash(key), key, value, false, true);

}


final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //如果HashMap底层数组引用为null,也就是说采用无参构造创建HashMap对象,第一次put元        
        //素,table数组自然为null
        if ((tab = table) == null || (n = tab.length) == 0)
            //使用resize()方法对数组进行扩容,默认长度为16,threshold值为16*0.75.
            n = (tab = resize()).length;//此时n值为16
        //如果table数组在下标(n-1)&hash处没有元素,则直接在该处存放元素
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {//产生hash冲突(hash碰撞),开始处理冲突
            Node<K,V> e; K k;
            //判断table[i]的首个元素与key是否相同,这里的相同指hashCode以及equals()返回true
            //如果相同在对value进行覆盖
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)//判断table[i]是否为红黑树,如果是,则直接在树中插                
                                           //入键值对Node
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                //此处为处理链表冲突
                for (int binCount = 0; ; ++binCount) {
                    //遍历链表,如果为空,则直接将结点挂在链表后面,此处是尾插.
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        //判断链表中的结点是否超过8,如果已经达到8个,看是否需要改变存储结构
                        //使用treeifyBin()判断当前HashMap的长度,如果不足64,则只进行resize()
                        //扩容table数组,如果达到64,则将存储结构转换为红黑树
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    //如果当前链表上存在相同的key值,则结束遍历
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            //e不为null,也就是存在相同的key值,对value进行覆盖,返回原先value的值
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        //modCount用于fail-fast机制
        ++modCount;
        //如果table数组中的元素大于当前门限值threshold(数组长度*负载因子),则对数组进行扩容
        if (++size > threshold)
            resize();//扩容为原数组长度的两倍
        afterNodeInsertion(evict);
        return null;
}

以上大概就是put()方法的源码解析, 下面再来细化分析一下部分功能实现.

1.确定哈希桶数组索引位置

当put进一个元素时, 定位到哈希桶数组的位置都是很关键的一步. HashMap使用hash算法来决定元素在数组中对应的位置.

这是hash()方法的源码:

取模运算:

这里hash算法本质上就是三步: 取key的hashCode值, 高位运算, 取模运算.

对于任意给定的对象, 只要它的hashCode()方法返回值相同, 那么程序得到的hash码值总是相同的.

得到hash值之后,其实是通过计算当前key的hash值对table数组的length长度取模运算从而得到在数组中的存储下标,HashMap会使用 (n-1)&hash 来确定该元素在数组中的索引位置, 而HashMap底层数组的长度总是2的n次方(扩容为原长度的2倍), 当length总是2的n次方时, (length-1)&hash 运算等价于对 length取模, 也就是hash%length. 但是&比%具有更高的效率.

高位运算算法: 通过hashCode()的高16位异或低16位实现的: (h=key.hashCode())^(h>>>16). 主要从速度, 功效, 质量来考虑. 可以在数组table的length比较小时, 也能保证到高位bit参与到hash的计算中.

注意!!! 在这里同一个桶中不一定都是存储的是hashCode相同的key, 因为虽然只有key元素的hashCode相同, 才会得到相同的hash码值, 但是不同的 hash(key) & (length-1) 的值可能是相等的, 所以在同一个桶中(也就是同一个数组的下标位置), 可能会存储不相同的hash码值. 也就是说在数组的同一个位置所存储的元素的key值的hashCode值并不一定都是相同的.

2.对put()方法的过程大概总结

(1)判断键值对数组table是否为null, 如果是, 则对数组进行扩容(默认长度为16, 存储的key-value对的最大值为16*0.75).

(2)根据计算key的hash值得到插入的数组索引, 如果数组当前索引位置没有元素, 则插入Node元素.

(3)如果当前数组对应索引位置存在元素, 则产生了hash冲突. 处理冲突: 判断数组对应下标table[i]中第一个元素是否与当前元素的key值相等, 这里的相等是指key元素的hashCode相同并且通过equals()方法比较返回true. 如果相同, 则覆盖数组中元素的value值

(4)如果不同, 则判断table[i] 是否为为红黑树结构, 如果是红黑树结构, 则直接在红黑树中插入.

(5)如果不是红黑树结构, 那就是链表结构来处理hash冲突了. 遍历链表, 如果链表中存在相同的key元素, (判断标准也是hashCode值相同并且通过equals()方法比较返回true), 则结束循环,覆盖当前连链表中的value值.

(6)如果链表中不存在相同的key元素, 则将带插入元素插入到链表尾部, 再判断当前链表的长度是否达到8, 如果达到8并且table数组的长度达到64, 则将链表存储结构转换成红黑树. 否则, 对数组进行扩容.

(7)插入成功后, 判断数组中的键值对(Node)个数是否超过最大容量threshold, 如果查出, 则对数组进行扩容.(扩容到原数组成都的2倍, 并且threshold也为原来的2倍).

3.JDK1.8使用红黑树改进

在JDK1.8中, HashMap处理hash冲突采用了红黑树结构, 采用链表来存储碰撞结点, 当碰撞很多时, 查询时间是 o(n), 1.8进行了性能上的提升, 当链表上的结点元素大于8时, 采用红黑树来存储碰撞元素, 查询时间复杂度为o(logn), 提升了查询的效率.

红黑树的工作原理: 当产生冲突的key 较少时, 只是简单的使用链表来存储冲突元素, 但冲突元素较多时, 链表查找的性能较差, 所以超过某个阈值后, HashMap将列表升级成一个红黑树, 使用哈希值作为树的分支变量, 如果两个哈希值不等, 但指向同一个桶的话, 较大的会插入到右子树中, 如果hash值相等, HashMap希望key值最好是实现了 Comparable接口的, 这样它可以按照顺序进行插入, 但这不是必须的, 如果没有实现 Comparable 接口, 则在发生严重hash碰撞时, 性能不会提高.

get()方法源码分析

public V get(Object key) {
        Node<K,V> e;
        //先计算出当前传入元素key的hash值,根据key的hash值去查找对应的value
        return (e = getNode(hash(key), key)) == null ? null : e.value;
}



final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        //table数组不为null,而且根据key元素的hashCode计算出的数组索引下表所对应的数组元素不为                    
        //null时,进行相应判断
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
            //如果数组对应索引处的第一个元素与当前key元素相等,也就是两个对象hashCode相等并且通 
            //过equals()方法比较返回true,返回当前键值对对象(Node)
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
            if ((e = first.next) != null) {
                //如果当前table对应索引的存储结构为红黑树,在红黑树中进行查找
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                do {
                    //当前存储结构为链表,则遍历链表,找出相同的key值
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        return null;
}

get()方法的实现比较简单, 首先会根据传入的参数key, 获取key相应的 hash值, 然后调用getNode()方法, 与通过传入key的hash值计算出来的对应数组索引中的第一个插入元素的key进行比较, 两个key元素的hashCode相同且通过equals()方法返回true, 则返回相应的Node元素, 获取value的值. 否则, 判断当前的存储结构, 如果是红黑树结构, 则在书中查找对应的key元素, 并返回; 如果为链表存储结构, 则遍历链表, 找出相同的key元素, 判断key相等的方法还是hashCode相同并且通过equals()返回 true. 如果找到, 则返回对应Node元素, 返回对应value的值.

四.HashMap的扩容机制

下面是resize()扩容机制的源码:

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        //如果旧表的长度不为空,对table数组进行扩容
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            //扩容为原长度的2倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                //将新表门限值设置为旧表门限值的2倍,也等同于新表长度*0.75
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
            //如果table引用为null,则设置默认长度为16(1<<4)
            newCap = DEFAULT_INITIAL_CAPACITY;
            //将门限值设置为16*0.75
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        //设置门限值容量(所能容纳的最大键值对个数,超过门限值则对数组扩容)
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        //创建Node[],并将赋给table.
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        //如果原数组不为空,则将原数组内容重新散列到新数组中
        if (oldTab != null) {
            //遍历数组
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                //如果数组中的对应索引处存在元素
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    //判断table[j]处的元素是否只有一个,如果是,则对元素进行再散列,存储到新数组
                    if (e.next == null)
                        //元素再散列,直接存储到新数组的e.hash&(newCap-1)位置处
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)//如果对应索引处的存储结构为红黑树
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // preserve order
                        //对应table[j]处的存储结构为链表
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            //遍历链表,将链表拆成两队
                            //(e.hash&oldCap)为偶数一对,(e.hash&oldCap)为奇数一对
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        //将偶数队放在新表原位置
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        //将奇数队放在新表的 j+oldCap 位置
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        //返回新数组的引用
        return newTab;
    }

table[j]处的存储结构如果为链表的话, 再散列的过程如下(大致解析):

HashMap底层的table数组长度总是2的n次幂, 在重新计算元素散列时, 没有直接使用 e.hash&(newCap-1), 而是使用 e.hash&oldCap==0|1 来判断元素位于新数组的索引位置. 其实这两个计算是等价的, 由于table数组长度总是为2, 那么在重新计算散列时, 不需要在与key元素的hash值(低位的 bit) 一一异或, 而是 newCap-1 对应二进制码的最高位 bit 与对应位key的hash值进行异或运算, 如果结果为0, 则元素保持元索引位置不变, 如果结果为1, 则元素在新表中的索引位置为原索引位置+旧表的长度, 也就是 j+oldCap. 下面图片来源于某篇技术博客https://blog.csdn.net/ExcellentYuXiao/article/details/52344819, 可供参考:

huhahuha_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HashMap底层实现分析

一. HashMap 概述HashMap根据键的 hashCode 值存储数据, 大多数情况下可以直接定位到它的值, 因而具有很快的访问速度, 但遍历的顺序却是不确定的. HashMap 最多只允许一条记录的 key为null, 但是允许多条记录的 value值为null. HashMap是飞线程安全的, 即任一时刻如果有多条线程同时访问 HashMap, 可能会造成数据的不一致性.在 ...
复制链接

扫一扫