HashMap 源码分析

本篇是参考(抄袭)网上一些大神的的博客,在此记录下来加深理解,以便之后随时翻阅。

参考链接: http://www.importnew.com/20386.html

     接下来从以下几个方面来研究HashMap.

  1.   HashMap 的存储结构。
  2.   HashMap各常量、成员变量的作用。
  3.   HashMap的集中构造方法。
  4.  HashMap  put 及相关方法。
  5.  HashMap get 及相关方法。
  6.  HashMap remove 及相关方法。
  7.  HaskMap 扩容方法  resize();

Java为数据结构中的映射定义了一个接口java.util.Map,此接口主要有四个常用的实现类,分别是HashMap、Hashtable、LinkedHashMap和TreeMap,类继承关系如下图所示: 

                                 

 上述实现类的一些特点简单说明如下:

  • HashMap : 它是根据键的HashCode 值 存储数据,大多数情况下可以定位到它的值,因而有很快的访问速度,但遍历顺序是不确定的。 HashMap最多只能允许一条记录的键为null , 允许多条记录的值为null . HashMap 线程不安全,即多个线程同时写入,可能导致数据不一致。如果需要满足线程安全,可以使用Collections的synchronizedMap方法,或者使用ConCurrentHashMap.  
  • Hashtable : HashTable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,任何时候只有一个线程能写入Hashtable,并发性不如ConcurrentHashMap,因为ConcurrentHashMap采用的是分段锁。Hashtable不建议在新代码中使用,如果是不要求线程安全的场合,可以采用HashMap代替,如果是要求线程安全的场合,可以使用ConcurrentHashMap。
  • LinkedHashMap : LinkedHashMap 是HashMap 的一个子类,保存了记录的插入顺序,在用Iterator遍LinkedHashMap时,先得到的记录肯定是先插入的,也可以在 构造时带参数,按照访问次序排序。
  • TreeMap : TreeMap实现了SortedMap接口,能够把它的记录按照键排序,默认是按照键值升序排序,也可以指定排序比较器,当用Iterator遍历TreeMap时,得到的记录是排过序的。当使用排序的映射时,建议使用TreeMap, key必须实现Comparable接口或者在构造TreeMap 传入自定义的Comparator,否则在运行时会抛出Java.lang.ClassCaseException异常。              

对于上述四种实现类,要求映射中的key是不可变的对象。不可变对象是该对象被创建后,它的哈希值不会改变,如果对象 的哈希值发生变化,Map对象很可能找不到映射的位置了。

以上四种,HashMap 是使用频率最高的类,我们将详细介绍HashMap.

  •  HashMap 存储结构

         HashMap是数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的,如下图:

                  

      这里需要明白两个问题:数据底层具体存储的是什么?这样的存储方式有什么优点?   

    •      从源码可知,HashMap 有个非常重要的字段:Node[] table  即哈希桶数组,明显这是一个Node数组,Node是什么那?(JKD1.8) 
                       
// Node<K,V> 类用来实现数组及链表的数据结构
static class Node<K,V> implements Map.Entry<K,V> {
        final int hash; //对象哈希值,用来定位数组索引的位置
        final K key;
        V value;
        Node<K,V> next; //链表的下一个node 

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }
          Node 是HashMap的一个内部类,实现了Map.Entry接口,本质上就是一个映射(键值对),上图每个黑色圆点表示的就是一个Node对象。


    • HashMap 是采用哈希表来存储,哈希表为解决冲突,可采用开放地址法或链地址法来解决冲突问题。Java中的HashMap 采用的是链地址法,简单来说就是数组加链表的的结合。在每一个数组元素中都有一个链表结构,当数据被Hash后,得到数组下标,把数据放到对应下标元素的链表上,例如以下程序。   
                    
map.put("加油","高");
系统将调用“加油” 这个key 的hashCode()方法得到其hashCode值(该方法适用于每个java对象),然后再通过Hash算法的后两部运算(高位运算和 取模运算,下文会有介绍)得到键值对的存储位置。有时不同的key通过Hash算法后会得到相同的值,会定位到相同的位置,这是就发生了Hash碰撞。当Hash算法的计算结果越分散均匀,Hash碰撞的概率越小,Map 的存取效率越高。
 
哈希桶数组的越大,差的Hash算法结果也会很分散。哈希桶数组小,好的Hash算法也会发生很多碰撞,所以要权衡空间成本与时间成本。 如何控制Map使得Hash碰撞概率小,Hash桶数组占用的空间少?  答案是好的Hash算法和扩容机制。

  • HashMap 的成员变量、常量的作用                                                    

           

//创建 HashMap 时未指定初始容量情况下的默认容量   
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; 

 //HashMap 的最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;

    //HashMap 默认的装载因子,当 HashMap 中元素数量超过 容量*装载因子 时,进行 resize() 操作
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    //用来确定何时将解决 hash 冲突的链表转变为红黑树
    static final int TREEIFY_THRESHOLD = 8;

    // 用来确定何时将解决 hash 冲突的红黑树转变为链表
    static final int UNTREEIFY_THRESHOLD = 6;
 
    /* 当需要将解决 hash 冲突的链表转变为红黑树时,需要判断下此时数组容量,若是由于数组容量太小(小于        MIN_TREEIFY_CAPACITY )导致的 hash 冲突太多,则不进行链表转变为红黑树操作,转为利用 resize() 函数对 hashMap 扩容 */ 
static final int MIN_TREEIFY_CAPACITY = 64;
  //保存Node<K,V>节点的数组
   transient Node<K,V>[] table;
  //由 hashMap 中 Node<K,V> 节点构成的 set
   transient Set<Map.Entry<K,V>> entrySet;
  
   int threshold;             // 所能容纳的key-value对极限 
   final float loadFactor;    // 负载因子
   int modCount;  
   int size;

首先,Node[] table 的初始化长度length(默认值是16),loadFactor 为负载因子(默认0.75f) ,threshold是HashMap所能容纳的最大数据量的Node(键值对)的个数。 threshold = length * loadFactor .也就是说在定义好了数组之后,负载因子越大,所能容纳的键值对个数越多。threshold 是数组所容纳数量的极限,超出这个值,则Map进行扩容,扩容后容量是原来的两倍。默认的负载因子0.75是对空间和时间效率的一个平衡选择,建议不要修改。如果内存空间很大又对效率要求很高,则可降低loadFactor的值;相反,内存空间紧张,效率要求不高则可调高loadFactor的值,这个值可以大于1。

size是HashMap中实际存储的键值对数量,注意区分table长度length与容纳最大键值对数量threshold的区别。而modCount字段用来记录HashMap 内部结构发生变化的次数,强调一下,这里的结构发生变化 例如put新的键值对,但某个key的value被覆盖不属于结构变化。

在HashMap中,哈希桶数组table的长度length必须是2的n次方(一定是合数),这是一种非常规的设计,常规的设计是把桶的大小设计为素数。相对来说素数导致的冲突小于合数,具体证明可以参考http://blog.csdn.net/liuqiyao_01/article/details/14475159,Hashtable初始化桶大小为11,就是桶大小设计为素数的应用(Hashtable扩容后不能保证还是素数)。HashMap采用这种非常规设计,主要是为了在取模和扩容时做优化,同时为了减少冲突,HashMap定位哈希桶索引位置时,也加入了高位参与运算的过程。

这里由一个问题就是负载因子和Hash算法再合理,也避免不了出现拉链过长的情况。一旦出现拉链过长的情况,则会严重影响HashMap的性能。于是,在JDK1.8中引入了红黑树,当链表长度太长(默认超过8)时,链表就转为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能。红黑树的参考:http://blog.csdn.net/v_july_v/article/details/6105630 。

  • 确定哈希桶数组索引的位置 

        增加、删除、查找键值对,定位到哈希桶数组位置是关键的第一步,我们希望HashMap里的元素位置尽量分布均分,尽量每个位置上只有一个元素,这样用Hash算法求得的值,会立马定位到我们所需要的值,不需要遍历链表,大大优化查询效率。HashMap定位数组索引位置,决定着Hash算法的离散性能。下面看看源码的实现方法(方法一  + 方法二 )。

  

方法一:
static final int hash(Object key) {   //jdk1.8 & jdk1.7
     int h;
     // h = key.hashCode() 为第一步 取hashCode值
     // h ^ (h >>> 16)  为第二步 高位参与运算
     return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
方法二:
static int indexFor(int h, int length) {  //jdk1.7的源码,jdk1.8没有这个方法,但是实现原理一样的
     return h & (length-1);  //第三步 取模运算
}

这里Hash算法的本质就是三部:取key 的HashCode值、高位运算、取模运算。

对于任意给定的对象,只要它的hashCode值返回相同,那么程序调用方法一所计算得到的 Hash码值总是相同的。我们首先想到的是是把Hash值对数组长度取模运算,这样一来,元素分布相对比价均匀,但是模运算的消耗是比较大的,在HashMap中是这样做的,调用方法二来计算该对象应该保存在table数组的哪个索引出。

这个方法非常巧妙,它通过 &(table.length-1) 得到对象的保存位,而HashMap 底层数组的长度总是2的N次方,这是Hash在速度上的优化,当length 是2的N次方时,h&(length-1) 运算等价于对length取模运算,也就是h%length,但是& 比%效率高。

 在JDK1.8 中优化了高位运算的算法,通过hashCode()的高16位异或低16位实现的:(h=key.hashCode())^(h>>>16),主要通过速度、功效、质量考虑的。这样做可以保证在table数组length很小的时候,高低Bit都参与到Hash计算中,同时不会有太大的开销。

下面举例说明,n为table的length:

  


  •    HashMap的put方法

            HashMap的put方法的执行过程可以通过下图来理解:

             

JDK1.8 源码如下:

    

 public V put(K key, V value) {
      // 对key的hashCode()做hash
     return putVal(hash(key), key, value, false, true);
 }
 
  final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                 boolean evict) {
      Node<K,V>[] tab; Node<K,V> p; int n, i;
      // 步骤①:tab为空则创建
     if ((tab = table) == null || (n = tab.length) == 0)
         n = (tab = resize()).length;
     // 步骤②:计算index,并对null做处理 
     if ((p = tab[i = (n - 1) & hash]) == null) 
         tab[i] = newNode(hash, key, value, null);
     else {
         Node<K,V> e; K k;
         // 步骤③:节点key存在,直接覆盖value
         if (p.hash == hash &&
             ((k = p.key) == key || (key != null && key.equals(k))))
             e = p;
         // 步骤④:判断该链为红黑树
         else if (p instanceof TreeNode)
             e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
         // 步骤⑤:该链为链表
         else {
             for (int binCount = 0; ; ++binCount) {
                 if ((e = p.next) == null) {
                     p.next = newNode(hash, key,value,null);
                        //链表长度大于8转换为红黑树进行处理
                     if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st  
                         treeifyBin(tab, hash);
                     break;
                 }
                    // key已经存在直接覆盖value
                 if (e.hash == hash &&
                     ((k = e.key) == key || (key != null && key.equals(k))))                                            break;
                 p = e;
             }
        }
        
        if (e != null) { // existing mapping for key
             V oldValue = e.value;
             if (!onlyIfAbsent || oldValue == null)
                e.value = value;
             afterNodeAccess(e);
             return oldValue;
        }
     }
 
     ++modCount;
     // 步骤⑥:超过最大容量 就扩容
     if (++size > threshold)
         resize();
     afterNodeInsertion(evict);
     return null;
 }


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值