HashMap底层原理解析

最新推荐文章于 2024-04-18 17:29:23 发布

佳幂小煜

最新推荐文章于 2024-04-18 17:29:23 发布

阅读量155

点赞数

文章标签：链表 java 数据结构

本文链接：https://blog.csdn.net/qq_38482920/article/details/120663183

版权

本文深入探讨了HashMap的数据结构，包括数组和链表的使用，以及Hash算法的工作原理。详细解析了HashMap的put、get和remove操作，阐述了扩容策略和寻址公式。还介绍了树化和降级的条件，以及HashMap在解决哈希冲突上的优化措施。

摘要由CSDN通过智能技术生成

数组

数组因为有下标，所以查询很快。但是由于创建的时候内存大小就已经被设定好，所以扩容很麻烦，要将原来的数组复制到一个更大的数组中。

链表

链表中的每一项都占有各自的内存，他们不是存在于一块内存中，每一项都是靠互相引用链接到一起的。

优势：增删很方便，查询麻烦，只能从head元素遍历。

散列表整合了上述二者

Hash

Hash也称散列、哈希，对应的英文都是Hash。基本原理就是把任意长度的输入，通过Hash算法变成固定长度的输出。这个映射的规则就是对应的Hash算法，而原始数据映射后的二进制串就是哈希值。

Hash的特点：

1.从hash值不可以反向推导出原始的数据。

2.输入数据的微小变化会得到完全不同的hash值，相同的数据会得到相同的值

3.哈希算法的执行效率要高效，长的文本也能快速地计算出哈希值。

4.hash算法的冲突概率要小。

由于hash的原理是将输入空间的值映射成hash空间内，而hash值的空间远小于输入的空间。根据抽屉原理，一定会存在不同的输入被映射成相同输出的情况。

抽屉原理：桌上有十个苹果，要把这十个苹果放到九个抽屉里，无论怎样放，我们会发现至少有一个抽屉里面放不少于两个苹果。

HashMap的成员变量其中之一就是Node

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

put原理

路由寻址公式：

(table.length-1) & node.hash

首先说明table.length肯定是2的次幂，-1之后肯定全是1.比如15就是1111 31就是11111.

这个运算其实相当于 node.hash/table.length 取余数。为什么要取余，这样可以保证得到的index肯定在table.length长度之内。

源码！！！

先来看几个常量

// 默认的数组大小 16    
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

// 数组最长长度
static final int MAXIMUM_CAPACITY = 1 << 30;

// 默认的负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;

// 链表长度到达8的时候 升级成树
static final int TREEIFY_THRESHOLD = 8;

// 树降级成为链表
static final int UNTREEIFY_THRESHOLD = 6;

// 数组到达64的时候才会允许树化
static final int MIN_TREEIFY_CAPACITY = 64;

在看下成员变量

transient Node<K,V>[] table;

// 当前hash表中元素个数
transient int size;

// hash表中结构修改次数
transient int modCount;

// 扩容阈值，当你的哈希表中的元素超过阈值时，触发扩容
// threshold = capacity(数组长度) * loadFactor
int threshold;

// 负载因子
final float loadFactor;

构造方法：

public HashMap(int initialCapacity, float loadFactor) {
        // 初始化数组大小不能小于0
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        // 初始化数组大小不能大于最大值
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        // 负载因子不能小于0 也不能是非数字
        // NaN 实际上就是 Not a Number的简称。0.0f/0.0f的值就是NaN，从数学角度说，0/0就是一种未        
        // 确定。
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }


 // 作用：返回一个大于等于当前值cap的一个数字，并且这个数字一定是2的次方数。
 // 假设 cap = 10 最后应该返回16
 //  cap = 10 , n = cap - 1 = 9, 
 //  0b1001 >>> 1 = 0b0100
 // 二者或一下  0b1001 | 0b0100 = 0b1101
 //  0b1101 | 0b0011(右移两位之后) = 0b1111 = 15
 //  0b1111 | 0b0000 = 0b1111
 // 接下来都一样了
最后就是 15+1 = 16
 static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

put方法：

 public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
 }

先调用了hash方法

// 作用：让key的hash值的高16位也参与路由运算
static final int hash(Object key) {
        int h;
// 当你put null的时候 放到0位
// 假设 h = 0b 0010 0101 1010 1100 0011 1111 0010 1110
// h >>> 16 =  0000 0000 0000 0000 0010 0101 1010 1100 
// ^ 异货 相同返回0 不同返回1
// 结果是   0010 0101 1010 1100 0001 1010 1000 0010
// 为什么要这样？ 假如table很小的时候 做路由寻址的时候 高位的无法参与运算
// 右移的话这样就能把高位的也放进来，这样就可以降低hash冲突
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

接下来看putVal()

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
// tab：引用当前hashMap的散列表
// p:表示当前散列表的元素
// n:表示散列表数组的长度
// i:表示路由寻址结果
        Node<K,V>[] tab; Node<K,V> p; int n, i;
// 先复制 将table赋值给tab 然后将数组长度赋值给n
// 如果table等于null 或者数组长度是0 那么就初始化。这样的好处是put的时候才初始化，懒加载的思想
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        // (n-1) & hash 就是路由寻址算法  ==null 说明当前节点没有值呢 那么就直接put进去。
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {  // 否则就是寻址发现已经有值了
            // e: 不为null的话，找到了一个与当要插入的key-value一致的key
            // k: 表示临时的一个key
            Node<K,V> e; K k;
            // 就是当前插入的元素跟寻址的数组中的hash相同，就将p赋值给临时e
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode) // 红黑树
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                // 链表的情况 而且链表的头元素与我们要插入的key不一致
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) { // 到链表末尾了
                        p.next = newNode(hash, key, value, null);
                        // 如果 >= 7的话 说明链表中已经有8个元素了 超过8 树化
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                // 条件成立的话 说明找到了相同key的node元素，需要进行替换操作。
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    // 就是遍历  将p挪到了p的下个元素
                    p = e;
                }
            }
            // e不等于null 条件成立说明 找到了一个与你插入元素key完全一致的数据，需要进行替换
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        // 表示散列表结构被修改的次数，替换Node元素的value不计数
        ++modCount;
        // 插入新元素后，size自增，如果自增后的值大于扩容阈值，则触发扩容。
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

resize方法

 /**
     * 为什么需要扩容？ 为了解决哈希冲突导致的链化影响查询效率的问题，扩容会缓解该问题
     * @return
     */
    final Node<K,V>[] resize() {
        // oldTab: 引用扩容前的哈希表
        Node<K,V>[] oldTab = table;
        // oldCap:表示扩容之前table数组的长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        // oldThr:表示扩容之前的扩容阈值，触发每次扩容的阈值
        int oldThr = threshold;
        // newCap 扩容之后table数组的大小
        // newThr 下次再次触发扩容的条件
        int newCap, newThr = 0;

        // 说明hashMap已经初始化过了 是一次正常的扩容
        if (oldCap > 0) {
            // 如果之前数组已经是定义的最大的 此时就没法扩容了 且设置下次条件为int最大值
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            // oldCap 左移一位 相当于*2 就相当于扩容了两倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        // oldCap == 0  说明hashMap中的散列表是null 还没初始化
        // 1. new HashMap(initCap, loadFactor)
        // 2. new HashMap(initCap)
        // 3. new HashMap(map);并且这个map有数据
        else if (oldThr > 0) // initial capacity was placed in threshold
            // oldThr是之前通过tableSizeFor计算出来的 一定是2的次幂，然后将这个值作为初始化的数组大小
            newCap = oldThr;
        // oldThr = 0  oldCap = 0
        // 调用 new HashMap();
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY; // 16
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); // 12
        }
        // newThr = 0的话 就是前面不赋值  就用数组大小计算一下
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                    (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        // 创建出一个更长更大的数组
        Node<K,V>[] newTab = (Node<K,V>[])new HashMap.Node[newCap];
        table = newTab;
        // 说明hashMap 本次扩容之前 table不为null
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                // 当前node节点
                Node<K,V> e;
                // 说明当前桶位中有数据 但是数据具体是 单个数据 还是链表 还是红黑树 并不知道
                if ((e = oldTab[j]) != null) {
                    // 方便gc
                    oldTab[j] = null;
                    // 说明是个单个元素
                    if (e.next == null)
                        // 路由寻址算法 找到新的桶位
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                        ((HashMap.TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // 第三种情况 桶位已经形成链表
                        /**
                         * 这个地方需要解释一下  假设我们现在看桶位为15的桶
                         * 路由寻址算法 hash & (16-1) = 15 = 0b1111
                         * 此时就能计算出来 桶位为15的元素的hash值的后四位是1111
                         * 但是倒数第五位不确定  有可能是0 也有可能是1  比如0b01111 或者 0b11111
                         * 那么0b01111 & (32-1) = 15    0b11111 & (32-1) = 31
                         * 这样就将之前桶位为15的元素分成了两份 一份去了15 一份去了31
                         *
                         */
                        // 低位链表，存放在扩容之后的数组的下标位置，与当前数组的下标位置一致
                        Node<K,V> loHead = null, loTail = null;
                        // 高位链表，存放在扩容之后的数组的下标位置为 当前数组下标位置 + 扩容之前数组的长度
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            // 这就说明是之前例子中的 0b01111这种情况 这个就是判断是高位还是低位
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    // 尾插进去
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);

                        // 相当于把之前的桶位为15的数据  高位和低位因为去了不同的桶位 他俩之前的关联关系要断掉
                      if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

get方法

public V get(Object key) {
        Node<K,V> e;
        return (e = getNode(hash(key), key)) == null ? null : e.value;
    }

final Node<K,V> getNode(int hash, Object key) {
        // tab: 引用当前hashMap的散列表
        // first: 桶位中的头元素
        // e: 临时node元素
        // n: table数组长度
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        // 如果数组整体不为null 并且路由寻址算法算到的桶位所承载的链表也不为空
        if ((tab = table) != null && (n = tab.length) > 0 &&
                (first = tab[(n - 1) & hash]) != null) {
            // 头元素恰好是你要查询的key 直接拿值就完事儿了
            if (first.hash == hash && // always check first node
                    ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
            // 当前桶位不止一个元素
            if ((e = first.next) != null) {
                if (first instanceof HashMap.TreeNode)
                    return ((HashMap.TreeNode<K,V>)first).getTreeNode(hash, key);
                do {  // 遍历拿
                    if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        return null;
    }

remove方法

final Node<K,V> removeNode(int hash, Object key, Object value,
                               boolean matchValue, boolean movable) {
        Node<K,V>[] tab; Node<K,V> p; int n, index;
        // tab:引用当前hashMap中的散列表
        // p: 当前node元素
        // n: 表示散列表数组长度
        // index: 表示寻址结果

        // 数组不为空的情况下才能删
        if ((tab = table) != null && (n = tab.length) > 0 &&
                (p = tab[index = (n - 1) & hash]) != null) {
            // node:查找到的结果
            // e:当前Node的下一个元素
            Node<K,V> node = null, e; K k; V v;
            // 第一种情况：当前桶位中的元素 即为你要删除的元素
            if (p.hash == hash &&
                    ((k = p.key) == key || (key != null && key.equals(k))))
                node = p;
            else if ((e = p.next) != null) {
            // 说明当前桶位 要么是链表 要么是红黑树
                if (p instanceof HashMap.TreeNode)
                    node = ((HashMap.TreeNode<K,V>)p).getTreeNode(hash, key);
                else {
                    // 遍历链表
                    do {
                        if (e.hash == hash &&
                                ((k = e.key) == key ||
                                        (key != null && key.equals(k)))) {
                            node = e;
                            break;
                        }
                        p = e;
                    } while ((e = e.next) != null);
                }
            }
            // matchValue就是判断value是否要与你传的value一致
            if (node != null && (!matchValue || (v = node.value) == value ||
                    (value != null && value.equals(v)))) {
                if (node instanceof HashMap.TreeNode)
                    ((HashMap.TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
                else if (node == p) // 桶位直接指向下一个节点
                    tab[index] = node.next;
                else  // 遍历链表的时候  node最后会在p的后面 然后将node后面的元素引用到p的next 相当于删除了node
                    p.next = node.next;
                ++modCount;
                --size;
                afterNodeRemoval(node);
                return node;
            }
        }
        return null;
    }