HashMap
数组+链表实现 --> transient Entry<K,V>[] table,每个Entry有一个next指针
基本概念
size,k-v的数量,map集合元素的个数
initialCapacity,初始容量,默认值为16,是一个折中值,不是太小也不是太大
capacity,容量,桶的数量=数组的长度
loadFactor,装载因子=size/ capacity,用来衡量表满的程度,默认为0.75是一个经验值,不会太满,也不会太少
threshold,扩容阀值,当表的size超过threshold时执行扩容操作= capacity * loadFactor
capacity+ loadFactor共同确定了hash表扩容时机
JDK1.7
数据结构
Entry<K,V>[] table +链表
- capacity始终是2的倍数,每次扩容为原来的两倍,是2的倍数和hash算法有关
int capacity = roundUpToPowerOf2(toSize);
- 阀值=容量*加载因子
threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
- 允许key为NULL
- put操作先执行hash查找,在执行遍历查找,找到则更新,未找到执行添加操作,添加操作时检查阀值进行扩容,每次扩容两倍? 新加入的节点始终放在链表头next指向原来的链表头
- 扩容
创建一个新的数组 -->容量为原来的两倍
进行数据转移 -->全量的重新hash
替换旧表 -->替换数组,替换引用
更新扩容阀值
**扩容会导致局部的逆序,多线程并发可能出现死循环
- get
size=0,返回null
hash定位链表头节点
遍历查找链表节点
**对链表的遍历操作是不稳定的,可能会出现耗时较大的情况
- remove
类似于对单链表的操作,需要进行引用关系的移动
- 迭代操作
迭代开始时保存了对map修改的次数,迭代过程中如发现被修改抛出ConcurrentModificationException异常
JDK1.8
数据结构
Node<K,V>[] table; 数组+链表+红黑树
Node是Map.Entry的扩展
- capacity始终是2的倍数,每次扩容为原来的两倍,默认值16,最大1 << 30
- threshold=capacity* loadFactor(默认0.75)
- TREEIFY_THRESHOLD,将链表优化为树结构的阀值,默认为8,还有几个和红黑树优化相关的参数
- put操作
链表头节点为空,直接创建新节点
头节点key相同直接执行替换操作
头节点为TreeNode,转putTreeVal,执行红黑树的插入操作
遍历链表,找到则执行更新,找到链表尾端未找到则执行插入后检查是否需要优化链表
- 扩容
put操作触发扩容,桶长度小于MIN_TREEIFY_CAPACITY[默认64]时执行扩容
size大于阀值时执行扩容
创建新数组 -->扩容为原来容量2倍
进行数据转移 -->长度为1的链表直接转移,TreeNode进行拆分,链表进行拆分移位
扩容操作是安全的,不会出现死循环,相对的顺序不会被打乱
1.7-1.8的改进
数据结构改进
使用TreeNode来优化链表的查找效率,使用链表+TreeNode的混合数据结构
hash函数改进
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
(n - 1) & hash
#取模运算,也是capacity为2的倍数的根本原因
a % b == (b-1) & a ,当b是2的指数时,等式成立。
扩容改进
算法优化,避免并发扩容中的死循环
1.7中的扩容算法会出现局部的逆序,并发扩容可能会出现死循环
1.8保证顺序性,避免并发扩容出现死循环
关于红黑树[Red-Black Tree]
红黑树,是一种特殊的二叉查找树.红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black).具有以下特性
- 每个节点或者是黑色,或者是红色
- 根节点是黑色
- 每个叶子节点是黑色,为空或者NIL的节点
- 如果一个节点是红色的则其子节点必须是黑色的
- 从一个节点到该节点的子孙节点的所有路径上包含相同的黑节点数
时间复杂度
O(lgn), 通常用来存取有序数据,效率高
定理
一棵含有n个节点的红黑树的高度至多为2log(n+1).
二叉树
平衡二叉树[AVL树]
是基于二分法的策略提高数据的查找速度的二叉树的数据结构
**
查找效率较好,维持在O(logN)
每个插入操作最多需要1次旋转, O(logN)左右
删除操作代价稍大, O(2logN)
红黑树
见红黑树,非严格平衡的
**
查找效率维持在O(logN)左右,最差情况性能差于AVL树
插入节点需要执行旋转和变色操作,最多需要2次旋转, O(logN)左右
删除代价小,删除一个节点最多需要3次旋转操作
考察点
- 扩容为什么是2的倍数?
- 1.7,1.8的实现比较
- hash函数的设计理念
附件
1.8put源码
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//检查是否需要初始化操作
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//检查是否桶为空[链表为空]
if ((p = tab[i = (n - 1) & hash]) == null)
//直接创建一个新节点
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
//p是链表头节点,比较hash同时判断equals
//判断key是否相同,相同则标记e插入操作的表头节点
//hash
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//链表头节点是树结构
else if (p instanceof TreeNode)
//对树结构进行插入操作
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
//hash相同equals不同,执行普通的插入操作
//这里的beancount为链表元素的个数
for (int binCount = 0; ; ++binCount) {
//到达链表尾端
if ((e = p.next) == null) {
//创建新节点
p.next = newNode(hash, key, value, null);
//连表长度满足优化要求
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//找到一个key相同的
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
//继续迭代
p = e;
}
}
//key存在,执行更新操作
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
//修改次数++
++modCount;
//检查是否需要扩容
if (++size > threshold)
resize();
//
afterNodeInsertion(evict);
return null;
}