HashMap源码解析及1.7中的死循环问题

最新推荐文章于 2024-04-22 20:15:26 发布

雨下一整碗儿

最新推荐文章于 2024-04-22 20:15:26 发布

阅读量410

点赞数

分类专栏： Java基础文章标签： hashmap 数据结构 java

本文链接：https://blog.csdn.net/qq_41868309/article/details/117484030

版权

Java基础专栏收录该内容

18 篇文章 0 订阅

订阅专栏

HashMap源码解析及1.7中的死循环问题

HashMap是一个以键值对形式存储数据的数据结构，键有且仅可以有一个为null，在1.8之前采用了数组+链表的数据结构，之后是数组+链表+红黑树。HashMap是多线程不安全的，HashTable是多线程安全的，但是HashTable在并发环境下效率较低，因此可以考虑使用ConcurrentHashMap来提高并发能力。

JDK1.7中的HashMap

由于HashMap在1.7及之前使用头插法，会导致多线程环境下可能造成死循环问题。

接下来一起看一下1.7中HashMap的put(K key, V value)方法:

public V put(K key, V value) {
    if (table == EMPTY_TABLE) {// 判断是否初始化并初始化HashMap
        inflateTable(threshold);// 初始化table
    }
    if (key == null)
        return putForNullKey(value);
    int hash = hash(key);
    int i = indexFor(hash, table.length);// 计算索引位置
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {// 替换并返回旧值
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }

    modCount++;
    addEntry(hash, key, value, i);
    return null;
}

1.7中的put方法大致流程是根据key的hash值计算要存储的索引位置i，若在索引位置i处的链表（Entry）已存在该key，则替换并返回旧值，若否则使用addEntry()方法添加新的Entry。接下来看一下addEntry方法方法如何添加链表：

void addEntry(int hash, K key, V value, int bucketIndex) {
    // 长度大于阈值且待添加索引位置无链表
    if ((size >= threshold) && (null != table[bucketIndex])) {
        
        resize(2 * table.length);
        hash = (null != key) ? hash(key) : 0;
        bucketIndex = indexFor(hash, table.length);
    }
	// 添加Entry
    createEntry(hash, key, value, bucketIndex);
}

这里我们先留意一下resize(2 * table.length)这个重新扩容HashMap的方法，先来看一下createEntry()方法：

void createEntry(int hash, K key, V value, int bucketIndex) {
    Entry<K,V> e = table[bucketIndex];
    table[bucketIndex] = new Entry<>(hash, key, value, e);
    size++;
}

在createEntry方法中，我们看到取出了索引位置bucketIndex（也就是刚才hash运算得出的索引位置i）的Entry e，然后使用Entry的构造方法new了一个新的Entry，并将它重新设置到索引位置上，我们来一起看一下这个构造方法：

Entry(int h, K k, V v, Entry<K,V> n) {
    value = v;
    next = n;// 设置下一个节点
    key = k;
    hash = h;
}

在这个被调用的构造方法中，传入的e（原索引位置的链表）被设置成了新Entry的next节点，也就是说：新节点会在原链表的头部插入。如下图所示：

在这里插入图片描述

到这里讲完了HashMap的头插法，下面我们来一起看一下这么做会有什么问题。还记得上面说的addEntry()方法中用来扩容的resize()方法，接下来一起看一下这个方法内部的逻辑：

void resize(int newCapacity) {
    Entry[] oldTable = table;
    int oldCapacity = oldTable.length;
    if (oldCapacity == MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return;
    }

    Entry[] newTable = new Entry[newCapacity];
    transfer(newTable, initHashSeedAsNeeded(newCapacity));
    table = newTable;
    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}

该方法要做的其实就是扩容当前的HashMap。我们知道HashMap的结构其实是数组，要扩容就避免不了的开辟一个新的空间存储新的更大容量的数组，并给原数组内的元素（Entry）重新在新数组中找到安放的位置。而resize()中调用transfer()方法的目的就是如此：

void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    for (Entry<K,V> e : table) {
        while(null != e) {
            Entry<K,V> next = e.next;//位置1
            if (rehash) {
                e.hash = null == e.key ? 0 : hash(e.key);
            }
            int i = indexFor(e.hash, newCapacity);
            e.next = newTable[i];// 位置2 头插
            newTable[i] = e;
            e = next;
        }
    }
}

transfer()的逻辑大致为将每个Entry根据新的容量进行hash运算计算出新的存储位置，并采用头插法的方式插入（e.next = newTable[i]）。这样会有什么问题呢？

假设有两个线程A和B在不停的往一个HashMap中插入元素，在濒临阈值的某一时刻，线程A执行到了上面代码的位置1处，获取了e.next, 即e的下一个节点，如下图中的节点f ：

在这里插入图片描述

这时线程B抢到了CPU执行权，线程A被挂起，线程B开始进行HashMap的扩容工作，假设e和f节点在扩容后还处在同一索引位置处，而我们又知道每个Entry在插入时采用的是头插法，那么扩容后如下图所示：

在这里插入图片描述

这时f变成了e的上一个节点，也就是说f.next就是e节点。这时线程A从位置1继续执行下面这几行代码，也就是说线程A获取了newTable索引i位置处的链表，并将e节点又从头部插入：

...
e.next = newTable[i];
newTable[i] = e;
e = next;
...

那么结构又变成了现在这样：

在这里插入图片描述

这样问题就显而易见了，在循环中，e的下一个节点是f，而在新的table中f的下一个节点又是e，这样就变成了e指向f，而f也指向e，即变成了一个闭环。

以上就是HashMap在1.7中的问题，接下来我们来看一下在1.8中HashMap的结构是怎样的。

1.8中的HashMap

Fields

我们先来看一些HashMap的属性：

// 0000 0001 --> 0001 0000 即默认容量为16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; 
// 最大容量
static final int MAXIMUM_CAPACITY = 1 << 30;
// 负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
// 链表转化为红黑树的阈值
static final int TREEIFY_THRESHOLD = 8;
// 红黑树转化为链表的阈值
static final int UNTREEIFY_THRESHOLD = 6;
// 转化为红黑树的最小容量
static final int MIN_TREEIFY_CAPACITY = 64;

构造方法

HashMap一共有四个构造方法，分别是无参构造，入参为容量大小的有参构造，入参为容量和负载因子的有参构造，入参为Map类型的有参构造。与1.7中不同的是，无参构造的HashMap在1.8中在创建时并不会对Map进行初始化，而是使用时再初始化。

// 1.7中的构造方法
public HashMap() {
    this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
// 1.8中的构造方法
public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; 
}

内部类

这里需要注意两个内部类：Node和TreeNode。

Node：类似1.7中的Entry，主要用来做链表结构的实现：

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;
    ...
}

TreeNode：HashMap中的链表在满足一定条件后会转换为红黑树，这时就需要TreeNode来构建这种数据结构：

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
    TreeNode<K,V> parent; 
    TreeNode<K,V> left; 
    TreeNode<K,V> right;
    TreeNode<K,V> prev; 
}

put()和get()

向Map中添加元素——put(K, V)

向HashMap中添加元素主要使用的是put方法，而put内部其实是调用了putVal方法：

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

这里需要注意的是传入putVal的第一个参数使用hash()方法计算了key的哈希值，我们来一起看一下这个hash()方法：

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

这里可以看到，key在为null时返回的哈希值为0。key不为null时，则由key的hashCode和key的hashCode的高16位进行异或运算（其实就是高16位与低16位的异或运算）。这个hash()方法的返回值主要用于后续计算元素要存储的数组下标，使用这样的异或运算保证了hashCode的值有一位发生改变，那么整个hash值就会发生改变，从而减小哈希碰撞出现的概率。

接下来一起看向HashMap中添加与元素的putVal()：

在位置1（代码在下面）处判断当前table是否被初始化，然后使用resize()方法初始化
从位置2可以看到，程序用刚才hash(key)得到的hash值和当前table长度-1进行与运算计算要元素要存放的位置下标i。那么问题来了：为什么要使用长度-1进行与运算呢？
- 假设table长度为16，那它的二进制就是：【0001 0000】，那么-1之后就变成了【0000 1111】，这样在与hashCode与运算时确保每一位都有可能为真(1)，从而合理的得出15以内的数组下标。
所以这时我们就知道位置2的判断逻辑了：首先使用与运算计算出元素要存储位置的数组下标，并将该下标的值赋值给p，然后判断是否为空，为空就使用newNode()方法在该位置新建一个链表（Node）
```
Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
    return new Node<>(hash, key, value, next);
}
```
若上面的if判断不成立，代码将会从位置3进入else块中。在位置4可以看到，程序采用hash值是否相等、key是否相等(==)、equals判断是否相等三个方面来确立key和原i位置元素的相等性，若相等则将p赋值给e（位置4）
若p的类型是一个红黑树（位置5），则使用**putTreeVal()**向该树中添加元素
若非上述情况，则进入位置6的for循环，然后在位置7判断p的下一个节点是否为空，若为空则newNode()新建一个Node称为p的下一个节点（往p后面添加一个节点，这里是尾插法）
位置8处判断当前长度是否大于树化的阈值（8），然后执行链表转换为红黑树的方法treeifyBin()，一起来看一下这个方法：
```
final void treeifyBin(Node<K,V>[] tab, int hash) {
    ...
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY) 
    ...
}
```
可以看到有一个隐含条件，就是当数组长度小于MIN_TREEIFY_CAPACITY也就是64时，链表是不会转换成红黑树的
接着继续向下遍历，在位置9处判断下个节点的相等性，若相等就返回，不相等则继续遍历（p=e）
位置10，如果链表中存在重复的key，就替换并返回旧值。这个8-9环节用一句话总结就是：新元素在链表中向下寻找，如果遇到有重复的key就插入并返回旧值，如果没有就在链表的尾部插入一个新的Node
位置11之后的步骤：增加修改次数，并判断当前阈值，超过了就扩容。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)// 位置1
        n = (tab = resize()).length;// 初始化table
    if ((p = tab[i = (n - 1) & hash]) == null)// 位置2
        tab[i] = newNode(hash, key, value, null);// 在i位置初始化链表
    else {// 位置3
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;// 位置4
        else if (p instanceof TreeNode)// 位置5
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {// 位置6
                if ((e = p.next) == null) {// 位置7
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // 位置8
                        treeifyBin(tab, hash);// 链表转红黑树
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))//位置9
                    break;
                p = e;
            }
        }
        if (e != null) { // 位置10
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    // 位置11
    ++modCount;
    if (++size > threshold) 
        resize();
    afterNodeInsertion(evict);
    return null;
}

查找Map中的元素——get(K)

get(Object key)方法用于获取HashMap中的元素，代码如下：

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

这里还是先使用了hash(key)计算了key的哈希值，接着调用getNode方法获取元素：

这里先进入位置1，判断table不为空且要查询的索引位置位置的链表不为null则进入if中
检查table索引位置链表的头结点first是否为要找的key（位置2），如果是就返回first节点
如果不是沿着链表（位置4）或红黑树（位置3）继续向下找，找不到就返回null，找到就返回要找的节点。

final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {// 位置1
        if (first.hash == hash &&
            ((k = first.key) == key || (key != null && key.equals(k))))// 位置2
            return first;
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)// 位置3 红黑树查找
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {// 位置4 链表查找
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

雨下一整碗儿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HashMap源码解析及1.7中的死循环问题

HashMap源码解析及1.7中的死循环问题HashMap是一个以键值对形式存储数据的数据结构，键有且仅可以有一个为null，在1.8之前采用了数组+链表的数据结构，之后是数组+链表+红黑树。HashMap是多线程不安全的，HashTable是多线程安全的，但是HashTable在并发环境下效率较低，因此可以考虑使用ConcurrentHashMap来提高并发能力。JDK1.7中的HashMap由于HashMap在1.7及之前使用头插法，会导致多线程环境下可能造成死循环问题。接下来一起看一下1.7中
复制链接

扫一扫