HashMap源码

最新推荐文章于 2024-05-06 15:41:47 发布
yesIcando-bupt
最新推荐文章于 2024-05-06 15:41:47 发布
阅读量218
点赞数
分类专栏： java
本文链接：https://blog.csdn.net/qq_35124535/article/details/67633469
版权
java 专栏收录该内容
54 篇文章 0 订阅
订阅专栏
 
   
 
  
HashMap的存储结构，如下图所示：

 
紫色部分即代表哈希表，也称为哈希数组，数组的每个元素都是一个单链表的头节点，链表是用来解决冲突的，如果不同的key映射到了数组的同一位置处，就将其放入单链表中。
 
1、首先看链表中节点的数据结构：
[java]view plaincopy 
     
 // Entry是单向链表。 （1.7以前）     
 // 它是 “HashMap链式存储法”对应的链表。      
 // 它实现了Map.Entry 接口，即实现getKey(), getValue(), setValue(V value), equals(Object o), hashCode()这些函数      
 static class Entry<K,V> implements Map.Entry<K,V> {      
     final K key;      
     V value;      
     // 指向下一个节点      
     Entry<K,V> next;      
     final int hash;      
     
     // 构造函数。      
     // 输入参数包括"哈希值(h)", "键(k)", "值(v)", "下一节点(n)"      
     Entry(int h, K k, V v, Entry<K,V> n) {      
         value = v;      
         next = n;      
         key = k;      
         hash = h;      
     }      
     
     public final K getKey() {      
         return key;      
     }      
     
     public final V getValue() {      
         return value;      
     }      
     
     public final V setValue(V newValue) {      
         V oldValue = value;      
         value = newValue;      
         return oldValue;      
     }      
     
     // 判断两个Entry是否相等      
     // 若两个Entry的“key”和“value”都相等，则返回true。      
     // 否则，返回false      
     public final boolean equals(Object o) {      
         if (!(o instanceof Map.Entry))      
             return false;      
         Map.Entry e = (Map.Entry)o;      
         Object k1 = getKey();      
         Object k2 = e.getKey();      
         if (k1 == k2 || (k1 != null && k1.equals(k2))) {      
             Object v1 = getValue();      
             Object v2 = e.getValue();      
             if (v1 == v2 || (v1 != null && v1.equals(v2)))      
                 return true;      
         }      
         return false;      
     }      
     
     // 实现hashCode()      
     public final int hashCode() {      
         return (key==null   ? 0 : key.hashCode()) ^      
                (value==null ? 0 : value.hashCode());      
     }      
     
     public final String toString() {      
         return getKey() + "=" + getValue();      
     }      
     
     // 当向HashMap中添加元素时，绘调用recordAccess()。      
     // 这里不做任何处理      
     void recordAccess(HashMap<K,V> m) {      
     }      
     
     // 当从HashMap中删除元素时，绘调用recordRemoval()。      
     // 这里不做任何处理      
     void recordRemoval(HashMap<K,V> m) {      
     }      
 }      
 2、 
  HashMap中用的最多的两个方法put和get。先从比较简单的get方法着手，源码如下：
[java]view plaincopy 
     
 // 获取key对应的value      
 public V get(Object key) {      
     if (key == null)      
         return getForNullKey();      
     // 获取key的hash值      
     int hash = hash(key.hashCode());      
     // 在“该hash值对应的链表”上查找“键值等于key”的元素      
     for (Entry<K,V> e = table[indexFor(hash, table.length)];      
          e != null;      
          e = e.next) {      
         Object k;      
 /判断key是否相同    
         if (e.hash == hash && ((k = e.key) == key || key.equals(k)))      
             return e.value;      
     }    
 没找到则返回null    
     return null;      
 }      
     
 // 获取“key为null”的元素的值      
 // HashMap将“key为null”的元素存储在table[0]位置，但不一定是该链表的第一个位置！      
 private V getForNullKey() {      
     for (Entry<K,V> e = table[0]; e != null; e = e.next) {      
         if (e.key == null)      
             return e.value;      
     }      
     return null;      
 }   
     如果key为null，则直接从哈希表的第一个位置table[0]对应的链表上查找。记住，key为null的键值对永远都放在以table[0]为头结点的链表中，当然不一定是存放在头结点table[0]中的key都是null。所以HashMap中允许key为null,但只能有一个key为null。 
  
     如果key不为null，则先求的key的hash值，根据hash值找到在table中的索引，在该索引对应的单链表中查找是否有键值对的key与目标key相等，有就返回对应的value，没有则返回null。 
  
 3、 put方法代码如下： 
  
  
[java]view plaincopy 
     
 // 将“key-value”添加到HashMap中      
   public V put(K key, V value) {      
       // 若“key为null”，则将该键值对添加到table[0]中。      
       if (key == null)      
           return putForNullKey(value);      
       // 若“key不为null”，则计算该key的哈希值，然后将其添加到该哈希值对应的链表中。      
       int hash = hash(key.hashCode());      
       int i = indexFor(hash, table.length);      
       for (Entry<K,V> e = table[i]; e != null; e = e.next) {      
           Object k;      
           // 若“该key”对应的键值对已经存在，则用新的value取代旧的value。然后退出！      
           if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {      
               V oldValue = e.value;      
               e.value = value;      
               e.recordAccess(this);      
               return oldValue;      
           }      
       }      
     
       // 若“该key”对应的键值对不存在，则将“key-value”添加到table中      
       modCount++;    
 //将key-value添加到table[i]处    
       addEntry(hash, key, value, i);      
       return null;      
   }     
[java]view plaincopy 
     
 <pre name="code" class="java">// putForNullKey()的作用是将“key为null”键值对添加到table[0]位置      
 private V putForNullKey(V value) {      
     for (Entry<K,V> e = table[0]; e != null; e = e.next) {      
         if (e.key == null) {      
             V oldValue = e.value;      
             e.value = value;      
             e.recordAccess(this);      
             return oldValue;      
         }      
     }      
     // 如果没有存在key为null的键值对，则直接题阿见到table[0]处!      
     modCount++;      
     addEntry(0, null, value, 0);      
     return null;      
 }     
      如果key为null，则将其添加到table[0]对应的链表中 
  
      如果key不为null，则同样先求出key的hash值，根据hash值得出在table中的索引，而后遍历对应的单链表，如果单链表中存在与目标key相等的键值对，则将新的value覆盖旧的value，比将旧的value返回，如果找不到与目标key相等的键值对，或者该单链表为空，则将该键值对插入到改单链表的头结点位置（每次新插入的节点都是放在头结点的位置） 
  
4、addEntry方法实现的，它的源码如下：
[java]view plaincopy 
     
 // 新增Entry。将“key-value”插入指定位置，bucketIndex是位置索引。      
 void addEntry(int hash, K key, V value, int bucketIndex) {      
     // 保存“bucketIndex”位置的值到“e”中      
     Entry<K,V> e = table[bucketIndex];      
     // 设置“bucketIndex”位置的元素为“新Entry”，      
     // 设置“e”为“新Entry的下一个节点”      
     table[bucketIndex] = new Entry<K,V>(hash, key, value, e);      
     // 若HashMap的实际大小 不小于 “阈值”，则调整HashMap的大小      
     if (size++ >= threshold)      
         resize(2 * table.length);      
 }      
 注意这里倒数第三行的构造方法，将key-value键值对赋给table[bucketIndex]，并将其next指向元素e，这便将key-value放到了头结点中，并将之前的头结点接在了它的后面。该方法也说明，每次put键值对的时候， 
  总是将新的该键值对放在table[bucketIndex]处（即头结点处）。
     两外注意最后两行代码，每次加入键值对时，都要判断当前已用的槽的数目是否大于等于阀值（容量*加载因子），如果大于等于，则进行扩容，将容量扩为原来容量的2倍。 
  
 5、扩容（ 
  resize）的方法的源码如下： 
  
[java]view plaincopy 
     
 // 重新调整HashMap的大小，newCapacity是调整后的单位      
 void resize(int newCapacity) {      
     Entry[] oldTable = table;      
     int oldCapacity = oldTable.length;      
     if (oldCapacity == MAXIMUM_CAPACITY) {      
         threshold = Integer.MAX_VALUE;      
         return;      
     }      
     
     // 新建一个HashMap，将“旧HashMap”的全部元素添加到“新HashMap”中，      
     // 然后，将“新HashMap”赋值给“旧HashMap”。      
     Entry[] newTable = new Entry[newCapacity];      
     transfer(newTable);      
     table = newTable;      
     threshold = (int)(newCapacity * loadFactor);      
 }      
 很明显，是新建了一个HashMap的底层数组，而后调用transfer方法，将就HashMap的全部元素添加到新的HashMap中（要重新计算元素在新的数组中的索引位置）。transfer方法的源码如下： 
  
[java]view plaincopy 
     
 // 将HashMap中的全部元素都添加到newTable中      
 void transfer(Entry[] newTable) {      
     Entry[] src = table;      
     int newCapacity = newTable.length;      
     for (int j = 0; j < src.length; j++) {      
         Entry<K,V> e = src[j];      
         if (e != null) {      
             src[j] = null;      
             do {      
                 Entry<K,V> next = e.next;      
                 int i = indexFor(e.hash, newCapacity);      
                 e.next = newTable[i];      
                 newTable[i] = e;      
                 e = next;      
             } while (e != null);      
         }      
     }      
 }      
 很明显，扩容是一个相当耗时的操作，因为它需要重新计算这些元素在新的数组中的位置并进行复制处理。因此，我们在用HashMap的时，最好能提前预估下HashMap中元素的个数，这样有助于提高HashMap的性能。 
  
 6、求hash值和索引值的方法，这两个方法便是HashMap设计的最为核心的部分，二者结合能保证哈希表中的元素尽可能均匀地散列。计算哈希值的方法如下： 
  
[java]view plaincopy 
     
 static int hash(int h) {    
         h ^= (h >>> 20) ^ (h >>> 12);    
         return h ^ (h >>> 7) ^ (h >>> 4);    
     }    
 它只是一个数学公式，IDK这样设计对hash值的计算，自然有它的好处，至于为什么这样设计，我们这里不去追究，只要明白一点，用的位的操作使hash值的计算效率很高。 
  
     由hash值找到对应索引的方法如下： 
  
[java]view plaincopy 
     
 static int indexFor(int h, int length) {    
         return h & (length-1);    
     }    
 在 HashMap 中要找到某个元素，需要根据 key 的 hash 值来求得对应数组中的位置。如何计算这个位置就是 hash 算法。前面说过 HashMap 的数据结构是数组和链表的结合，所以我们当然希望这个 HashMap 里面的 元素位置尽量的分布均匀些，尽量使得每个位置上的元素数量只有一个，那么当我们用 hash 算法求得这个位置的时候，马上就可以知道对应位置的元素就是我们要的，而不用再去遍历链表，这样就大大优化了查询的效率。 
  
    对于任意给定的对象，只要它的 hashCode() 返回值相同，那么程序调用 hash(int h) 方法所计算得到的 hash 码值总是相同的。我们首先想到的就是把 hash 值对数组长度length取模运算（HashTable中是这样做的），这样一来，元素的分布相对来说是比较均匀的。但是， “ 模 ” 运算的消耗还是比较大的，在 HashMap 中是这样做的：调用 indexFor(int h, int length) 方法来计算该对象应该保存在 table 数组的哪个索引处。 
  
       indexFor这个方法非常巧妙，它通过 h & (table.length -1) 来得到该对象的保存位，而 HashMap 底层数组的长度总是 2 的 n 次方，这是HashMap 在速度上的优化。在 HashMap 构造器中有如下代码： 
  这个方法非常巧妙，它通过 h & (table.length -1) 来得到该对象的保存位，而 HashMap 底层数组的长度总是 2 的 n 次方，这是HashMap 在速度上的优化。在 HashMap 构造器中有如下代码：
[java]view plaincopy 
     
 int  capacity =  1 ;    
     while  (capacity < initialCapacity)    
         capacity <<= 1 ;   
 这段代码保证初始化时 HashMap 的容量总是 2 的 n 次方，即底层数组的长度总是为 2 的 n 次方。 
  
 当 length 总是 2 的 n 次方时， h& (length-1) 运算等价于对 length 取模，也就是 h%length ，但是 & 比 % 具有更高的效率。 
  
    这看上去很简单，其实比较有玄机的，我们举个例子来说明： 
  
    假设数组长度分别为 15 和 16 ，优化后的 hash 码分别为 8 和 9 ，那么 & 运算后的结果如下： 
  
        h & (table.length-1)                      hash                              table.length-1 
  
        8 & (15-1) ：                                  0100                    &                1110                   =                 0100 
  
        9 & (15-1) ：                                  0101                   &               1110                    =                0100 
  
        ----------------------------------------------------------------------------------------------------------------------- 
  
        8 & (16-1) ：                                  0100                   &              1111                   =                0100 
  
        9 & (16-1) ：                                  0101                   &              1111                   =                0101 
  

    从上面的例子中可以看出：当它们和 15-1 （ 1110 ） “ 与 ” 的时候，产生了相同的结果，也就是说它们会定位到数组中的同一个位置上去，这就产生了碰撞， 8 和 9 会被放到数组中的同一个位置上形成链表，那么查询的时候就需要遍历这个链 表，得到 8 或者 9 ，这样就降低了查询的效率。同时，我们也可以发现，当数组长度为 15 的时候， hash 值会与 15-1 （ 1110 ）进行 “ 与 ” ，那么 最后一位永远是 0 ，而 0001 ， 0011 ， 0101 ， 1001 ， 1011 ， 0111 ， 1101 这几个位置永远都不能存放元素了，空间浪费相当大，更糟的是这种情况中，数组可以使用的位置比数组长度小了很多，这意味着进一步增加了碰撞的几率，减慢了查询的效率！而当数组长度为 16时，即为 2 的 n 次方时， 2n -1 得到的二进制数的每个位上的值都为 1 ，这使得在低位上 & 时，得到的和原 hash 的低位相同，加之hash(int h) 方法对 key 的 hashCode 的进一步优化，加入了高位计算，就使得只有相同的 hash 值的两个值才会被放到数组中的同一个位置上形成链表。 
  

一个重要的问题：为什么哈希表的容量一定要是2的整数次幂??????
         （1）首先，length为2的整数次幂的话，h&(length-1)就相当于对length取模，这样便保证了散列的均匀，同时也提升了效率；
        （2）其次，length为2的整数次幂的话，为偶数，这样length-1为奇数，奇数的最后一位是1，这样便保证了h&(length-1)的最后一位可能为0，也可能为1（这取决于h的值），即与后的结果可能为偶数，也可能为奇数，这样便可以保证散列的均匀性，而如果length为奇数的话，很明显length-1为偶数，它的最后一位是0，这样h&(length-1)的最后一位肯定为0，即只能为偶数，这样任何hash值都只会被散列到数组的偶数下标位置上，这便浪费了近一半的空间，因此，length取2的整数次幂，是为了使不同hash值发生碰撞的概率较小，这样就能使元素在哈希表中均匀地散列。
 

 
总结： HashMap 在底层将 key-value 当成一个整体进行处理，这个整体就是一个 Entry 对象。 HashMap 底层采用一个 Entry[] 数组来保存所有的 key-value 对，当需要存储一个 Entry 对象时，会根据int hash = hash(key.hashCode()); int i = indexFor(hash, table.length);hash 算法来决定其在数组中的存储位置，在根据equals 方法决定其在该数组位置上的链表中的存储位置；当需要取出一个 Entry 时，也会根据 hash 算法找到其在数组中的存储位置，再根据 equals 方法从该位置上的链表中取出该 Entry 。
 java.util.HashMap 不是线程安全的，因此如果在使用迭代器的过程中有其他线程修改了 map ，那么将抛出ConcurrentModificationException ，这就是所谓 fail-fast 策略。
    这一策略在源码中的实现是通过 modCount 域， modCount 顾名思义就是修改次数，对 HashMap 内容的修改都将增加这个值，那么在迭代器初始化过程中会将这个值赋给迭代器的 expectedModCount 。