本篇是参考(抄袭)网上一些大神的的博客,在此记录下来加深理解,以便之后随时翻阅。
参考链接: http://www.importnew.com/20386.html
接下来从以下几个方面来研究HashMap.
- HashMap 的存储结构。
- HashMap各常量、成员变量的作用。
- HashMap的集中构造方法。
- HashMap put 及相关方法。
- HashMap get 及相关方法。
- HashMap remove 及相关方法。
- HaskMap 扩容方法 resize();
Java为数据结构中的映射定义了一个接口java.util.Map,此接口主要有四个常用的实现类,分别是HashMap、Hashtable、LinkedHashMap和TreeMap,类继承关系如下图所示:
上述实现类的一些特点简单说明如下:
- HashMap : 它是根据键的HashCode 值 存储数据,大多数情况下可以定位到它的值,因而有很快的访问速度,但遍历顺序是不确定的。 HashMap最多只能允许一条记录的键为null , 允许多条记录的值为null . HashMap 线程不安全,即多个线程同时写入,可能导致数据不一致。如果需要满足线程安全,可以使用Collections的synchronizedMap方法,或者使用ConCurrentHashMap.
- Hashtable : HashTable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,任何时候只有一个线程能写入Hashtable,并发性不如ConcurrentHashMap,因为ConcurrentHashMap采用的是分段锁。Hashtable不建议在新代码中使用,如果是不要求线程安全的场合,可以采用HashMap代替,如果是要求线程安全的场合,可以使用ConcurrentHashMap。
- LinkedHashMap : LinkedHashMap 是HashMap 的一个子类,保存了记录的插入顺序,在用Iterator遍LinkedHashMap时,先得到的记录肯定是先插入的,也可以在 构造时带参数,按照访问次序排序。
- TreeMap : TreeMap实现了SortedMap接口,能够把它的记录按照键排序,默认是按照键值升序排序,也可以指定排序比较器,当用Iterator遍历TreeMap时,得到的记录是排过序的。当使用排序的映射时,建议使用TreeMap, key必须实现Comparable接口或者在构造TreeMap 传入自定义的Comparator,否则在运行时会抛出Java.lang.ClassCaseException异常。
对于上述四种实现类,要求映射中的key是不可变的对象。不可变对象是该对象被创建后,它的哈希值不会改变,如果对象 的哈希值发生变化,Map对象很可能找不到映射的位置了。
以上四种,HashMap 是使用频率最高的类,我们将详细介绍HashMap.
- HashMap 存储结构
HashMap是数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的,如下图:
这里需要明白两个问题:数据底层具体存储的是什么?这样的存储方式有什么优点?
- 从源码可知,HashMap 有个非常重要的字段:Node[] table 即哈希桶数组,明显这是一个Node数组,Node是什么那?(JKD1.8)
// Node<K,V> 类用来实现数组及链表的数据结构
static class Node<K,V> implements Map.Entry<K,V> {
final int hash; //对象哈希值,用来定位数组索引的位置
final K key;
V value;
Node<K,V> next; //链表的下一个node
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
- HashMap 是采用哈希表来存储,哈希表为解决冲突,可采用开放地址法或链地址法来解决冲突问题。Java中的HashMap 采用的是链地址法,简单来说就是数组加链表的的结合。在每一个数组元素中都有一个链表结构,当数据被Hash后,得到数组下标,把数据放到对应下标元素的链表上,例如以下程序。
map.put("加油","高");
系统将调用“加油” 这个key 的hashCode()方法得到其hashCode值(该方法适用于每个java对象),然后再通过Hash算法的后两部运算(高位运算和 取模运算,下文会有介绍)得到键值对的存储位置。有时不同的key通过Hash算法后会得到相同的值,会定位到相同的位置,这是就发生了Hash碰撞。当Hash算法的计算结果越分散均匀,Hash碰撞的概率越小,Map 的存取效率越高。
- HashMap 的成员变量、常量的作用
//创建 HashMap 时未指定初始容量情况下的默认容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
//HashMap 的最大容量
static final int MAXIMUM_CAPACITY = 1 << 30;
//HashMap 默认的装载因子,当 HashMap 中元素数量超过 容量*装载因子 时,进行 resize() 操作
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//用来确定何时将解决 hash 冲突的链表转变为红黑树
static final int TREEIFY_THRESHOLD = 8;
// 用来确定何时将解决 hash 冲突的红黑树转变为链表
static final int UNTREEIFY_THRESHOLD = 6;
/* 当需要将解决 hash 冲突的链表转变为红黑树时,需要判断下此时数组容量,若是由于数组容量太小(小于 MIN_TREEIFY_CAPACITY )导致的 hash 冲突太多,则不进行链表转变为红黑树操作,转为利用 resize() 函数对 hashMap 扩容 */
static final int MIN_TREEIFY_CAPACITY = 64;
//保存Node<K,V>节点的数组
transient Node<K,V>[] table;
//由 hashMap 中 Node<K,V> 节点构成的 set
transient Set<Map.Entry<K,V>> entrySet;
int threshold; // 所能容纳的key-value对极限
final float loadFactor; // 负载因子
int modCount;
int size;
首先,Node[] table 的初始化长度length(默认值是16),loadFactor 为负载因子(默认0.75f) ,threshold是HashMap所能容纳的最大数据量的Node(键值对)的个数。 threshold = length * loadFactor .也就是说在定义好了数组之后,负载因子越大,所能容纳的键值对个数越多。threshold 是数组所容纳数量的极限,超出这个值,则Map进行扩容,扩容后容量是原来的两倍。默认的负载因子0.75是对空间和时间效率的一个平衡选择,建议不要修改。如果内存空间很大又对效率要求很高,则可降低loadFactor的值;相反,内存空间紧张,效率要求不高则可调高loadFactor的值,这个值可以大于1。
size是HashMap中实际存储的键值对数量,注意区分table长度length与容纳最大键值对数量threshold的区别。而modCount字段用来记录HashMap 内部结构发生变化的次数,强调一下,这里的结构发生变化 例如put新的键值对,但某个key的value被覆盖不属于结构变化。
在HashMap中,哈希桶数组table的长度length必须是2的n次方(一定是合数),这是一种非常规的设计,常规的设计是把桶的大小设计为素数。相对来说素数导致的冲突小于合数,具体证明可以参考http://blog.csdn.net/liuqiyao_01/article/details/14475159,Hashtable初始化桶大小为11,就是桶大小设计为素数的应用(Hashtable扩容后不能保证还是素数)。HashMap采用这种非常规设计,主要是为了在取模和扩容时做优化,同时为了减少冲突,HashMap定位哈希桶索引位置时,也加入了高位参与运算的过程。
这里由一个问题就是负载因子和Hash算法再合理,也避免不了出现拉链过长的情况。一旦出现拉链过长的情况,则会严重影响HashMap的性能。于是,在JDK1.8中引入了红黑树,当链表长度太长(默认超过8)时,链表就转为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能。红黑树的参考:http://blog.csdn.net/v_july_v/article/details/6105630 。
- 确定哈希桶数组索引的位置
增加、删除、查找键值对,定位到哈希桶数组位置是关键的第一步,我们希望HashMap里的元素位置尽量分布均分,尽量每个位置上只有一个元素,这样用Hash算法求得的值,会立马定位到我们所需要的值,不需要遍历链表,大大优化查询效率。HashMap定位数组索引位置,决定着Hash算法的离散性能。下面看看源码的实现方法(方法一 + 方法二 )。
方法一:
static final int hash(Object key) { //jdk1.8 & jdk1.7
int h;
// h = key.hashCode() 为第一步 取hashCode值
// h ^ (h >>> 16) 为第二步 高位参与运算
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
方法二:
static int indexFor(int h, int length) { //jdk1.7的源码,jdk1.8没有这个方法,但是实现原理一样的
return h & (length-1); //第三步 取模运算
}
这里Hash算法的本质就是三部:取key 的HashCode值、高位运算、取模运算。
对于任意给定的对象,只要它的hashCode值返回相同,那么程序调用方法一所计算得到的 Hash码值总是相同的。我们首先想到的是是把Hash值对数组长度取模运算,这样一来,元素分布相对比价均匀,但是模运算的消耗是比较大的,在HashMap中是这样做的,调用方法二来计算该对象应该保存在table数组的哪个索引出。
这个方法非常巧妙,它通过 &(table.length-1) 得到对象的保存位,而HashMap 底层数组的长度总是2的N次方,这是Hash在速度上的优化,当length 是2的N次方时,h&(length-1) 运算等价于对length取模运算,也就是h%length,但是& 比%效率高。
在JDK1.8 中优化了高位运算的算法,通过hashCode()的高16位异或低16位实现的:(h=key.hashCode())^(h>>>16),主要通过速度、功效、质量考虑的。这样做可以保证在table数组length很小的时候,高低Bit都参与到Hash计算中,同时不会有太大的开销。
下面举例说明,n为table的length:
- HashMap的put方法
HashMap的put方法的执行过程可以通过下图来理解:
JDK1.8 源码如下:
public V put(K key, V value) {
// 对key的hashCode()做hash
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
// 步骤①:tab为空则创建
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
// 步骤②:计算index,并对null做处理
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
// 步骤③:节点key存在,直接覆盖value
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
// 步骤④:判断该链为红黑树
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
// 步骤⑤:该链为链表
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key,value,null);
//链表长度大于8转换为红黑树进行处理
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
// key已经存在直接覆盖value
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k)))) break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
// 步骤⑥:超过最大容量 就扩容
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}