HashMap 源码分析

最新推荐文章于 2023-03-27 17:08:56 发布

qq_26770963

最新推荐文章于 2023-03-27 17:08:56 发布

阅读量183

点赞数 1

分类专栏： java

java 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本篇是参考（抄袭）网上一些大神的的博客，在此记录下来加深理解，以便之后随时翻阅。

参考链接： http://www.importnew.com/20386.html

接下来从以下几个方面来研究HashMap.

HashMap 的存储结构。
HashMap各常量、成员变量的作用。
HashMap的集中构造方法。
HashMap put 及相关方法。
HashMap get 及相关方法。
HashMap remove 及相关方法。
HaskMap 扩容方法 resize();

Java为数据结构中的映射定义了一个接口java.util.Map，此接口主要有四个常用的实现类，分别是HashMap、Hashtable、LinkedHashMap和TreeMap，类继承关系如下图所示：

上述实现类的一些特点简单说明如下：

HashMap : 它是根据键的HashCode 值存储数据，大多数情况下可以定位到它的值，因而有很快的访问速度，但遍历顺序是不确定的。 HashMap最多只能允许一条记录的键为null , 允许多条记录的值为null . HashMap 线程不安全，即多个线程同时写入，可能导致数据不一致。如果需要满足线程安全，可以使用Collections的synchronizedMap方法,或者使用ConCurrentHashMap.
Hashtable : HashTable是遗留类，很多映射的常用功能与HashMap类似，不同的是它承自Dictionary类，并且是线程安全的，任何时候只有一个线程能写入Hashtable,并发性不如ConcurrentHashMap,因为ConcurrentHashMap采用的是分段锁。Hashtable不建议在新代码中使用，如果是不要求线程安全的场合，可以采用HashMap代替，如果是要求线程安全的场合，可以使用ConcurrentHashMap。
LinkedHashMap : LinkedHashMap 是HashMap 的一个子类，保存了记录的插入顺序，在用Iterator遍LinkedHashMap时，先得到的记录肯定是先插入的，也可以在构造时带参数，按照访问次序排序。
TreeMap : TreeMap实现了SortedMap接口，能够把它的记录按照键排序，默认是按照键值升序排序，也可以指定排序比较器，当用Iterator遍历TreeMap时，得到的记录是排过序的。当使用排序的映射时，建议使用TreeMap, key必须实现Comparable接口或者在构造TreeMap 传入自定义的Comparator,否则在运行时会抛出Java.lang.ClassCaseException异常。

对于上述四种实现类，要求映射中的key是不可变的对象。不可变对象是该对象被创建后，它的哈希值不会改变，如果对象的哈希值发生变化，Map对象很可能找不到映射的位置了。

以上四种，HashMap 是使用频率最高的类，我们将详细介绍HashMap.

HashMap 存储结构

HashMap是数组+链表+红黑树（JDK1.8增加了红黑树部分）实现的，如下图：

这里需要明白两个问题：数据底层具体存储的是什么？这样的存储方式有什么优点？

- 从源码可知，HashMap 有个非常重要的字段：Node[] table 即哈希桶数组，明显这是一个Node数组，Node是什么那？（JKD1.8）

// Node<K,V> 类用来实现数组及链表的数据结构
static class Node<K,V> implements Map.Entry<K,V> {
        final int hash; //对象哈希值，用来定位数组索引的位置
        final K key;
        V value;
        Node<K,V> next; //链表的下一个node 

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

Node 是HashMap的一个内部类，实现了Map.Entry接口，本质上就是一个映射（键值对），上图每个黑色圆点表示的就是一个Node对象。

- HashMap 是采用哈希表来存储，哈希表为解决冲突，可采用开放地址法或链地址法来解决冲突问题。Java中的HashMap 采用的是链地址法，简单来说就是数组加链表的的结合。在每一个数组元素中都有一个链表结构，当数据被Hash后，得到数组下标，把数据放到对应下标元素的链表上，例如以下程序。

map.put("加油","高");

系统将调用“加油” 这个key 的hashCode()方法得到其hashCode值（该方法适用于每个java对象），然后再通过Hash算法的后两部运算（高位运算和取模运算，下文会有介绍）得到键值对的存储位置。有时不同的key通过Hash算法后会得到相同的值，会定位到相同的位置，这是就发生了Hash碰撞。当Hash算法的计算结果越分散均匀，Hash碰撞的概率越小，Map 的存取效率越高。

哈希桶数组的越大，差的Hash算法结果也会很分散。哈希桶数组小，好的Hash算法也会发生很多碰撞，所以要权衡空间成本与时间成本。如何控制Map使得Hash碰撞概率小，Hash桶数组占用的空间少？答案是好的Hash算法和扩容机制。

HashMap 的成员变量、常量的作用

//创建 HashMap 时未指定初始容量情况下的默认容量   
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; 

　//HashMap 的最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;

    //HashMap 默认的装载因子,当 HashMap 中元素数量超过 容量*装载因子 时，进行　resize()　操作
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    //用来确定何时将解决 hash 冲突的链表转变为红黑树
    static final int TREEIFY_THRESHOLD = 8;

    // 用来确定何时将解决 hash 冲突的红黑树转变为链表
    static final int UNTREEIFY_THRESHOLD = 6;
 
    /* 当需要将解决 hash 冲突的链表转变为红黑树时，需要判断下此时数组容量，若是由于数组容量太小（小于　       MIN_TREEIFY_CAPACITY　）导致的 hash 冲突太多，则不进行链表转变为红黑树操作，转为利用　resize() 函数对　hashMap 扩容　*/ 
static final int MIN_TREEIFY_CAPACITY = 64;
  //保存Node<K,V>节点的数组
   transient Node<K,V>[] table;
  //由　hashMap 中 Node<K,V>　节点构成的 set
   transient Set<Map.Entry<K,V>> entrySet;
  
   int threshold;             // 所能容纳的key-value对极限 
   final float loadFactor;    // 负载因子
   int modCount;  
   int size;

首先，Node[] table 的初始化长度length(默认值是16），loadFactor 为负载因子（默认0.75f） ,threshold是HashMap所能容纳的最大数据量的Node(键值对)的个数。 threshold = length * loadFactor .也就是说在定义好了数组之后，负载因子越大，所能容纳的键值对个数越多。threshold 是数组所容纳数量的极限，超出这个值，则Map进行扩容，扩容后容量是原来的两倍。默认的负载因子0.75是对空间和时间效率的一个平衡选择，建议不要修改。如果内存空间很大又对效率要求很高，则可降低loadFactor的值；相反，内存空间紧张，效率要求不高则可调高loadFactor的值，这个值可以大于1。

size是HashMap中实际存储的键值对数量，注意区分table长度length与容纳最大键值对数量threshold的区别。而modCount字段用来记录HashMap 内部结构发生变化的次数，强调一下，这里的结构发生变化例如put新的键值对，但某个key的value被覆盖不属于结构变化。

在HashMap中，哈希桶数组table的长度length必须是2的n次方（一定是合数），这是一种非常规的设计，常规的设计是把桶的大小设计为素数。相对来说素数导致的冲突小于合数，具体证明可以参考http://blog.csdn.net/liuqiyao_01/article/details/14475159，Hashtable初始化桶大小为11，就是桶大小设计为素数的应用（Hashtable扩容后不能保证还是素数）。HashMap采用这种非常规设计，主要是为了在取模和扩容时做优化，同时为了减少冲突，HashMap定位哈希桶索引位置时，也加入了高位参与运算的过程。

这里由一个问题就是负载因子和Hash算法再合理，也避免不了出现拉链过长的情况。一旦出现拉链过长的情况，则会严重影响HashMap的性能。于是，在JDK1.8中引入了红黑树，当链表长度太长（默认超过8）时，链表就转为红黑树，利用红黑树快速增删改查的特点提高HashMap的性能。红黑树的参考：http://blog.csdn.net/v_july_v/article/details/6105630 。

确定哈希桶数组索引的位置

增加、删除、查找键值对，定位到哈希桶数组位置是关键的第一步，我们希望HashMap里的元素位置尽量分布均分,尽量每个位置上只有一个元素，这样用Hash算法求得的值，会立马定位到我们所需要的值，不需要遍历链表，大大优化查询效率。HashMap定位数组索引位置，决定着Hash算法的离散性能。下面看看源码的实现方法(方法一 + 方法二 )。

方法一：
static final int hash(Object key) {   //jdk1.8 & jdk1.7
     int h;
     // h = key.hashCode() 为第一步 取hashCode值
     // h ^ (h >>> 16)  为第二步 高位参与运算
     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
方法二：
static int indexFor(int h, int length) {  //jdk1.7的源码，jdk1.8没有这个方法，但是实现原理一样的
     return h & (length-1);  //第三步 取模运算
}

这里Hash算法的本质就是三部：取key 的HashCode值、高位运算、取模运算。

对于任意给定的对象，只要它的hashCode值返回相同，那么程序调用方法一所计算得到的 Hash码值总是相同的。我们首先想到的是是把Hash值对数组长度取模运算，这样一来，元素分布相对比价均匀，但是模运算的消耗是比较大的，在HashMap中是这样做的，调用方法二来计算该对象应该保存在table数组的哪个索引出。

这个方法非常巧妙，它通过 &（table.length-1）得到对象的保存位，而HashMap 底层数组的长度总是2的N次方，这是Hash在速度上的优化，当length 是2的N次方时，h&(length-1) 运算等价于对length取模运算，也就是h%length,但是& 比％效率高。

在JDK1.8 中优化了高位运算的算法，通过hashCode()的高16位异或低16位实现的：(h=key.hashCode())^(h>>>16),主要通过速度、功效、质量考虑的。这样做可以保证在table数组length很小的时候，高低Bit都参与到Hash计算中，同时不会有太大的开销。

下面举例说明，n为table的length:

HashMap的put方法

HashMap的put方法的执行过程可以通过下图来理解：

JDK1.8 源码如下:

 public V put(K key, V value) {
      // 对key的hashCode()做hash
     return putVal(hash(key), key, value, false, true);
 }
 
  final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                 boolean evict) {
      Node<K,V>[] tab; Node<K,V> p; int n, i;
      // 步骤①：tab为空则创建
     if ((tab = table) == null || (n = tab.length) == 0)
         n = (tab = resize()).length;
     // 步骤②：计算index，并对null做处理 
     if ((p = tab[i = (n - 1) & hash]) == null) 
         tab[i] = newNode(hash, key, value, null);
     else {
         Node<K,V> e; K k;
         // 步骤③：节点key存在，直接覆盖value
         if (p.hash == hash &&
             ((k = p.key) == key || (key != null && key.equals(k))))
             e = p;
         // 步骤④：判断该链为红黑树
         else if (p instanceof TreeNode)
             e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
         // 步骤⑤：该链为链表
         else {
             for (int binCount = 0; ; ++binCount) {
                 if ((e = p.next) == null) {
                     p.next = newNode(hash, key,value,null);
                        //链表长度大于8转换为红黑树进行处理
                     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st  
                         treeifyBin(tab, hash);
                     break;
                 }
                    // key已经存在直接覆盖value
                 if (e.hash == hash &&
                     ((k = e.key) == key || (key != null && key.equals(k))))                                            break;
                 p = e;
             }
        }
        
        if (e != null) { // existing mapping for key
             V oldValue = e.value;
             if (!onlyIfAbsent || oldValue == null)
                e.value = value;
             afterNodeAccess(e);
             return oldValue;
        }
     }
 
     ++modCount;
     // 步骤⑥：超过最大容量 就扩容
     if (++size > threshold)
         resize();
     afterNodeInsertion(evict);
     return null;
 }

qq_26770963

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HashMap 源码分析

本篇是参考（抄袭）网上一些大神的的博客，在此记录下来加深理解，以便之后随时翻阅。参考链接： http://www.importnew.com/20386.html 接下来从以下几个方面来研究HashMap. HashMap 的存储结构。 HashMap各常量、成员变量的作用。 HashMap的集中构造方法。 HashMap put 及相关方法。 HashMap
复制链接

扫一扫

专栏目录