1、JDK1.8 HashMap概述
在JDK1.8之前,HashMap采用数组+链表实现,即使用链表处理冲突,同一hash值的节点都存储在一个链表里。但是当位于一个桶中的元素较多,即hash值相等的元素较多时,通过key值依次查找的效率较低。
而JDK1.8中,HashMap采用数组+链表+红黑树实现,当链表长度超过阈值(8)时,将链表转换为红黑树,这样大大减少了查找时间。
到了jdk1.8,当同一个hash值的节点数不小于8时,不再采用单链表形式存储,而是采用红黑树,如下图所示。
2、涉及到的数据结构:处理hash冲突的链表和黑红树以及位桶
2.1、链表的实现
Node是HashMap的一个内部类,实现了Map.Entry接口,本质是就是一个映射(键值对)。上图中的每个黑色圆点就是一个Node对象。来看具体代码:
//Node是HashMap的一个内部类,实现了Map.Entry接口,本质上就是一个映射
static class Node<K,V> implements Map.Entry<K,V> {
//直接存储hash值是为了在比较的时候加快计算
final int hash;
final K key;
V value;
Node<K,V> next;
2.2红黑树
/**
* Entry for Tree bins. Extends LinkedHashMap.Entry (which in turn
* extends Node) so can be used as extension of either regular or
* linked node.
*/
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; //父亲节点
TreeNode<K,V> left; //左子树
TreeNode<K,V> right; //右子树
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red; //颜色属性
TreeNode(int hash, K key, V val, Node<K,V> next) {
super(hash, key, val, next);
}
2.3、 位桶
//table是一个Entry类型的数组,称为哈希表或哈希桶,
// 其中每个元素指向一个单项链表,链表中的每个节点表示表示一个键值对
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
有了以上3个数据结构,只要有一点数据结构基础的人,都可以大致联想到HashMap的实现了。首先有一个每个元素都是链表(可能表述不准确)的数组,当添加一个元素(key-value)时,就首先计算元素key的hash值,以此确定插入数组中的位置,但是可能存在同一hash值的元素已经被放在数组同一位置了,这时就添加到同一hash值的元素的后面,他们在数组的同一位置,但是形成了链表,所以说数组存放的是链表。而当链表长度太长时,链表就转换为红黑树,这样大大提高了查找的效率
3、类的属性
//table是一个Node类型的数组,称为哈希表或哈希桶
//其中每个元素指向一个单项链表,链表中的每个节点表示一个键值对
// 存储元素的数组,总是2的幂次倍
transient Node<K,V>[] table;
/**
* Holds cached entrySet(). Note that AbstractMap fields are used
* for keySet() and values().
*/
//存放具体元素的集
transient Set<Map.Entry<K,V>> entrySet;
/**
* The number of key-value mappings contained in this map.
*/
// 存放元素的个数,注意这个不等于数组的长度。
transient int size;
/**
* The number of times this HashMap has been structurally modified
* Structural modifications are those that change the number of mappings in
* the HashMap or otherwise modify its internal structure (e.g.,
* rehash). This field is used to make iterators on Collection-views of
* the HashMap fail-fast. (See ConcurrentModificationException).
*/
//每次扩容和更改map结构的计数器
transient int modCount;
/**
* The next size value at which to resize (capacity * load factor).
*
* @serial
*/
// (The javadoc description is true upon serialization.
// Additionally, if the table array has not been allocated, this
// field holds the initial array capacity, or zero signifying
// DEFAULT_INITIAL_CAPACITY.)
//threshold表示阈值,当键值对个数大于等于thresholdf时考虑进行扩展
//threshold等于 table.length * loadFactor ;
// loadFactor是负载因子,表示整体上table被占用的程度,是一个浮点数,默认为0.75f
// 临界值 当实际大小(容量*填充因子)超过临界值时,会进行扩容
int threshold;
/**
* The load factor for the hash table.
*
* @serial
*/
//负载因字
final float loadFactor;
//序列号
private static final long serialVersionUID = 362498820763181265L;
/**
* The default initial capacity - MUST be a power of two.
*/
//初始容量为16;默认数组容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
/**
* The maximum capacity, used if a higher value is implicitly specified
* by either of the constructors with arguments.
* MUST be a power of two <= 1<<30.
*/
//最大容量上限
static final int MAXIMUM_CAPACITY = 1 << 30;
/**
* The load factor used when none specified in constructor.
*/
//默认的填充因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/**
* The bin count threshold for using a tree rather than list for a
* bin. Bins are converted to trees when adding an element to a
* bin with at least this many nodes. The value must be greater
* than 2 and should be at least 8 to mesh with assumptions in
* tree removal about conversion back to plain bins upon
* shrinkage.
*/
//链表长度大于该参数转为黑红树
static final int TREEIFY_THRESHOLD = 8;
/**
* The bin count threshold for untreeifying a (split) bin during a
* resize operation. Should be less than TREEIFY_THRESHOLD, and at
* most 6 to mesh with shrinkage detection under removal.
*/
//当铜山发给的节点数小于这个值时就装换为链表
static final int UNTREEIFY_THRESHOLD = 6;
/**
* The smallest table capacity for which bins may be treeified.
* (Otherwise the table is resized if too many nodes in a bin.)
* Should be at least 4 * TREEIFY_THRESHOLD to avoid conflicts
* between resizing and treeification thresholds.
*/
// 桶中结构转化为红黑树对应的table的最小大小
static final int MIN_TREEIFY_CAPACITY = 64;
4、hash算法
首先获取对象的hashCode()值,然后将hashCode值右移16位,然后将右移后的值与原来的hashCode做异或运算,返回结果。(其中h>>>16,在JDK1.8中,优化了高位运算的算法,使用了零扩展,无论正数还是负数,都在高位插入0)。
static final int hash(Object key) {
int h;
//基于key自身的hashCode方法的返回值又进行了一些位数运算,目的是为了随机和均匀性
//首先获取对象的hashCode值,然后将hashCode值右移16位,然后将右移的值与燕来的hashCode左异或运算,返回结果
//为什么右移动16位数?
//此先在hash方法中将key的hashCode右移16位在与自身异或,
// 使得高位也可以参与hash,更大程度上减少了碰撞率。
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
4、put方法
public V put(K key, V value) {
// 对key的hashCode()做hash
return putVal(hash(key), key, value, false, true);
}
4.1、putVal方法解析
//在Jdk1.8中,HashMap的存储结构采用 数组+链表+红黑树这种组合型数据结构
//当hash值发生冲突时,会采用链表或者红黑树解决冲突;当同一hash值的节点数小于8时,则采用链表,否则采用红黑树。这一改变,主要提高查询速度
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab;
Node<K,V> p;
int n, i;
//步骤①:tab为空则创建
//table未初始化或者长度为0,进行扩容
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;//对hashMap进行扩容;n为hash桶数组的长度
//步骤②:计算index,并对null左处理
//(n-1)&hash确定元素放在哪个桶中,桶为空,新生节点放入桶中(此时,这个节点是放入数组中)
if ((p = tab[i = (n - 1) & hash]) == null)//根据hash值来确定存放的位置;(n-1)&hash等价于hash%n
// 如果当前位置是空直接添加到table中
tab[i] = newNode(hash, key, value, null);
//桶中已经存在元素
else {
Node<K,V> e; K k;
//步骤③:节点Key存在,直接覆盖value
//比较桶中第一个元素(数组的节点)的hash值相等,key相等
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
//将第一个元素赋值给e,用e来记录
e = p;
//步骤④:判断该链是否为红黑树
//hash值不相等,即key不相等;为红黑树节点;放入树中
else if (p instanceof TreeNode)//确认是否为红黑树
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
//步骤⑤:该链尾链表
for (int binCount = 0; ; ++binCount) {
//在链表的末尾插入节点
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//链表节点大于阈值转换为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
//跳出循环
break;
}
//判断链表中结点的key值与插入的元素的key值是否相等
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
//相等条春循环
break;
// 用于遍历桶中的链表,与前面的e = p.next组合,可以遍历链表
p = e;
}
}
// 表示在桶中找到key值、hash值与插入元素相等的结点
if (e != null) { // existing mapping for key
// // 记录e的value
V oldValue = e.value;
// // onlyIfAbsent为false或者旧值为null
if (!onlyIfAbsent || oldValue == null)//
e.value = value;//替换新的Value并返回旧的Value
访问后回调
afterNodeAccess(e);
return oldValue;
}
}
//结构性修改
++modCount;
// // 实际大小大于阈值则扩容
if (++size > threshold)
resize();//如果当前hashMap容量大于threshold则进行扩容
afterNodeInsertion(evict);
return null;
}
5、getNode方法
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//table已经初始化,长度大于0,根据hash寻找table中的项也不为空
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//桶中第一项(数组元素)相等
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//桶中不止一个节点
if ((e = first.next) != null) {
//为红黑树节点
if (first instanceof TreeNode)
//在红黑树中查找
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
//否则在链表中查找
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
6、扩容机制 resize
final Node<K,V>[] resize() {
Node<K, V>[] oldTab = table;//首次初始化后table为Null
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;//默认构造器的情况下为0
int newCap, newThr = 0;
if (oldCap > 0) {//table扩容过
//当前table容量大于最大值得时候返回当前table
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
} else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
//table的容量乘以2,threshold的值也乘以2
newThr = oldThr << 1; // double threshold
} else if (oldThr > 0) // initial capacity was placed in threshold
//使用带有初始容量的构造器时,table容量为初始化得到的threshold
newCap = oldThr;
else{ //默认构造器下进行扩容
// zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int) (DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
//使用带有初始容量的构造器在此处进行扩容
float ft = (float) newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float) MAXIMUM_CAPACITY ?
(int) ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes", "unchecked"})
Node<K, V>[] newTab = (Node<K, V>[]) new Node[newCap];
table = newTab;
if (oldTab != null) {
//对新扩容后的table进行赋值,条件中的代码删减
}
return newTab;
}
if (oldTab != null) {
//对新扩容后的table进行赋值,条件中的代码删减
//oldCap为原数组的长度
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
//将原数组位置置为空,应该是便于垃圾回收吧
oldTab[j] = null;
//如果数组中只存放了一个元素,即不是红黑树
//结构也不是链表结构
if (e.next == null)
//直接通过&算法找到数组中的位置
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
//如果是红黑树结构,就调用split
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
//如果数组中存放的是链表,会将原来的链分成两条链表
Node<K,V> loHead =null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//通过计算e.hash&oldCap==0构造一条链
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
} //通过e.hash&oldCap!=0构造另外一条链
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//遍历结束以后,将tail指针指向null
//e.hash&oldCap==0构造而来的链的位置不变
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//e.hash&oldCap!=0构造而来的链的位置在数
//组j+oldCap位置处
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
这里暂时只介绍链表,红黑树结构暂时还只了解概念
为什么说扩容机制很好玩呢,因为它会将原来的链表同过计算e.hash&oldCap==0分成两条链表,再将两条链表散列到新数组的不同位置上
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直
扩容前数组长度为8,扩容为原数组长度的2倍即16。
原来有一条链表在tab[2]的位置,扩容以后仍然有一条链在tab[2]的位置,另外一条链在tab[2+8]即tab[10]的位置处。
多线程情况,对hashmap进行put操作会引起resize,并可能会造成数组元素的丢失
链接:https://www.jianshu.com/p/0ab3e05b1d23