HashMap深度解析

最新推荐文章于 2024-04-03 08:31:27 发布

wiseph

最新推荐文章于 2024-04-03 08:31:27 发布

阅读量297

点赞数

分类专栏： Java编程面试文章标签： hashmap

Java编程面试专栏收录该内容

30 篇文章 1 订阅

订阅专栏

HashMap是最被广泛使用的Map接口的实现，了解它的内部实现机制将有利于我们更好的使用这个强有力的工具。

首先，我们来一起看看HashMap内部的结构。它可以看作是数组（Node[] table）和链表结合组成的复合结构。数组被分为一个个桶（Bin），通过哈希值决定了键值对在这个数组的寻址。落在同一个桶内的键值对，则以链表形式存储，参考下图。需要注意的是，如果链表大小超过阈值（TREEIFY_THRESHOLD，8），图中的链表就会被改造为树形结构。

1、解析put()方法

除非使用拷贝功能的构造函数，HashMap是按照lazy-load原则设计的。也就是说HashMap在对象构造阶段并不会分配空间。既然如此，我们去看看put方法实现，似乎只有一个putVal的调用：

public V put(K key, V value) {
  return putVal(hash(key), key, value, false, true);
}

看来主要的秘密似乎藏在putVal里面，到底有什么秘密呢？为了节省空间，我这里只截取了putVal比较关键的几部分：

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
  Node<K,V>[] tab; Node<K,V> p; int n, i;
  if ((tab = table) == null || (n = tab.length) == 0)
    n = (tab = resize()).length;
  if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);
  else {
    // ...
    if (binCount >= TREEIFY_THREDHOLD - 1) // -1 for first
      treeifyBin(tab, hash);
    // ...
  }
}

从putVal方法最初的几行，我们就可以发现几个有意思的地方：

如果表格是null，resize方法会负责初始化它，这从tab = resize()可以看出。
resize方法兼顾两个职责，创建初始存储表格，或者在容量不满足需求的时候，进行扩容。
在放置新的键值对的过程中，如果发生下面条件，就会发生扩容。
```
  if (++size > threshold)
    resize();
```
具体键值对在哈希表中的位置（数组索引）取决于下面的位运算：
```
i = (n - 1) & hash
```

仔细观察哈希值的源头，我们会发现，它并不是key本身的hashCode，而是来自于HashMap内部的另外一个hash方法：

static final int hash(Object key) {
  int h;
  return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

注意，为什么这里需要将高位数据移位到低位进行异或运算呢？这是因为有些数据计算出的哈希值差异主要在高位，而HashMap里的哈希寻址是忽略容量以上的高位的，那么这种处理就可以有效避免类似情况下的哈希碰撞。

2、解析resize()方法

我们进一步分析一下身兼多职的resize方法。

final Node<K,V>[] resize() {
  // ...
  else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
            oldCap >= DEFAULT_INITIAL_CAPACITY)
    newThr = oldThr << 1; // double threshold
  // ...
  else if (oldThr > 0) // initial capacity was placed in threshold
    newCap = oldThr;
  else { // zero initial threshold signifies using defaults
    newCap = DEFAULT_INITIAL_CAPACITY;
    newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
  }
  if (newThr == 0) {
    float ft = (float)newCap * loadFactor;
    newThr = (newCap < MAXIMUM_CAPACITY && ft < (float) MAXIMUM_CAPACITY ?
             (int)ft : Integer.MAX_VALUE);
  }
  threshold = newThr;
  Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
  table = n;
  // 移动到新的数组结构
}

依据resize源码，不考虑极端情况，我们可以归纳为：

门限值等于负载因子×容量，如果构建HashMap的时候没有指定它们，那么就是依据相应的默认常量值。
门限通常是以倍数进行调整（newThr = oldThr << 1）。前面提到，根据putVal中的逻辑，当元素个数超过门限大小时，则调整Map大小。
扩容后，需要将老的数组中的元素重新放置到新的数组，这是扩容的一个主要开销来源。

3、容量和负载因子

前面我们快速梳理了HashMap从创建到放入键值对的相关逻辑，现在思考一下，为什么我们需要在乎容量和负载因子呢？

这是因为容量和负载因子决定了可用的桶的数量。空桶太多会浪费空间，如果使用的太满则会严重影响操作的性能。极端情况下，假设只有一个桶，那么它就退化成了链表，完全不能够提供所谓常数时间的性能。

既然容量和负载因子这么重要，我们在实践中应该如何选择呢？

根据前面的代码分析，我们知道它需要符合计算条件：

负载因子 * 容量 > 元素数量

所以，预先设置的容量需要满足，大于“预估元素数量 / 负载因子”，同时它是2的幂数，结论已经非常清晰了。对于负载因子的建议：

如果没有特别需求，不要轻易进行更改，因为JDK自身的默认负载因子是非常符合通用场景的需求的。
如果确实需要调整，建议不要设置超过0.75的数值，因为会显著增加冲突，降低HashMap的性能。
如果使用太小的负载因子，按照上面的公式，预设容量值也进行调整，否则可能会导致更加频繁的扩容，增加无谓的开销。

4、树化

前面提到了树化改造，对应逻辑主要在putVal和treeifyBin中。

final void treeifyBin(Node<K,V>[] tab, int hash) {
  int n, index; Node<K,V> e;
  if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
    resize();
  else if ((e = tab[index = (n - 1) & hash]) != null) {
    // 树化改造逻辑
  }
}

那么，为什么HashMap要树化呢？

本质上这是个安全问题。因为在元素放置过程中，如果一个对象哈希冲突，都被放置到同一个桶里，则会形成一个链表。我们知道链表查询是线性的，会严重影响存取的性能。

而在现实世界，构造哈希冲突的数据并不是非常复杂的事情。恶意代码就可以利用这些数据大量与服务器端交互，导致服务器端CPU大量占用。这就构成了哈希碰撞拒绝服务攻击，国内一线互联网公司就发生过类似攻击事件。

【完】