HashMap源码分析及冲突处理的细节

最新推荐文章于 2023-04-25 14:26:49 发布

bestStyle

最新推荐文章于 2023-04-25 14:26:49 发布

阅读量763

点赞数

分类专栏： jdk源码分析

本文链接：https://blog.csdn.net/qfycc92/article/details/45419063

版权

jdk源码分析专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一. 首先看一下hashmap的数据结构，可以看到是数组加链表实现的。

transient Entry<K,V>[] table =(Entry<K,V>[]) EMPTY_TABLE;

可以看到它的实现是一个Entry<K,V>类型的名为table的数组。而Entry是HashMap中的一个内部类。

static class Entry<K,V> implementsMap.Entry<K,V> {

final K key;

V value;

Entry<K,V> next;

int hash;

它有四个属性，key，value，next，hash。由于有next属性，所以自然会想到链表的结点类，事实上，当出现hash冲突时，由于HashMap使用链地址法来解决冲突。所以table数组的每一个元素就会形成链表结构。所以可以说HashMap就是一个存储链表的数组。

二. HashMap的table数组的默认大小是16，并且大小永远是2的n次方。它还有一个负载因子，默认为0.75，可以通过带参数的构造方法自己指定。负载因子loadFactor的作用是：HashMap中的实际的数据大小除以总容量(initialCapacity),当值达到loadFactor时，HashMap的总容量自动扩展一倍。

staticfinal int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

static final float DEFAULT_LOAD_FACTOR = 0.75f;

计算threshold，值为capacity *loadFactor。

threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY +1);

这里就会判断，当size的值大于threshold（即capacity *loadFactor）时，就会进行扩容。

if ((size >= threshold) && (null != table[bucketIndex])){

resize(2 * table.length);

三.接下来以put方法作为入口，进行分析。

1.首先进行hash运算，并求出将要存入的数组下标。

int hash = hash(key);

int i = indexFor(hash, table.length);

接下来看看计算下标的算法是如何实现的。进入到indexFor方法中，实现的代码如下：

static int indexFor(int h, int length) {

// assertInteger.bitCount(length) == 1 : "length must be a non-zero power of2";

return h &(length-1);

}

具体是h &(length-1)，这样计算的值介于0和length-1之间，有点类似于hash%length 的求模运算。之所以用&运算我认为是位运算的效率更高吧。

2.然后是下面这段代码：

for (Entry<K,V> e = table[i]; e != null; e = e.next) {

Object k;

if (e.hash == hash&& ((k = e.key) == key || key.equals(k))) {

V oldValue =e.value;

e.value =value;

e.recordAccess(this);

returnoldValue;

}

modCount++;

addEntry(hash, key,value, i);

会判断table[i]是否为null，这是会出现两种情况，先分析第一种情况，即table[i]还没有元素，是null的情况，这时循环就没有执行，继续往下，去执行addEntry方法。addEntry方法中先进行判断是否需要扩容，如果需要，就进行扩容。然后又进入到createEntry方法中。它的代码实现如下：

void createEntry(int hash, K key, V value, int bucketIndex) {

Entry<K,V> e =table[bucketIndex];

table[bucketIndex] =new Entry<>(hash, key, value, e);

size++;

}

它做的工作就是把hash,key, value, e四个属性组装成一个Entry的对象e，并将它放在数组下标相应的位置，这时如果加入的是第一个元素，e则为null,所以next指向了null。最后再把size加1.

下面分析第二种情况，即即table[i]已经有了元素，不是null的情况。这时会执行上面的那一段for循环，这个循环的作用就是依次遍历整个table[i]链表，并且判断这个链表的每一个元素的key是否和新加进来的元素的key相同，如果相同新的value就会覆盖旧的value，即保证HashMap中唯一的key有唯一的value.

进行完了覆盖的操作后，就会执行剩下的代码，和第一种情况一样，执行addEntry方法。addEntry方法中先进行判断是否需要扩容，如果需要，就进行扩容。再执行createEntry方法。这时e = table[bucketIndex];计算出来的e就不为null了，为原来的i下标处的元素。然后又封装一个新的Entry对象，放入到table[i]位置，它的next指向了e,即原来的table[i]处的元素。

所以通过分析我们可以发现，最后放入的元素总是在这个冲突链表的表头的位置。

最后，可以看到，当出现冲突时，会把数据放入链表中，每次插入新的元素都会对整个链表进行遍历操作，影响程序的效率。所以当我们向HasnMap中放入的key的数据类型是自定义类型的时候，要按照规范合理的实现hashcode和equals方法，尽量避免冲突。另外，由于它的底层实现也是数组，所以也要尽量避免扩容。最好能估算出初始的大小，而对于负载因子，据说0.75是计算出的最佳值，所以还是用默认的吧。