主要内容
哈希表
HashMap源码分析
TreeMap源码分析
HashSet源码分析
TreeSet源码分析
学习目标
知识点 | 要求 |
哈希表 | 掌握 |
HashMap源码分析 | 掌握 |
TreeMap源码分析 | 掌握 |
HashSet源码分析 | 掌握 |
TreeSet源码分析 | 掌握 |
一、哈希表
1.引入hash表
在无序数组中按照内容查找,效率低下,时间复杂度是O(n)
在有序数组中按照内容查找,可以使用折半查找,时间复杂度O(log2n)
问题:按照内容查找,能否也不进行比较,而是通过计算得到地址,实现类似数组按照索引查询的高效率呢O(1)
有!!!哈希表来实现
2.哈希表的结构特点
hash表 也叫散列表;特点:快
3.哈希表是如何添加数据
-
计算哈希码(调用hashCode(),结果是一个int值,整数的哈希码取自身即可)
-
计算在哈希表中的存储位置 y=k(x)=x%11
x:哈希码 k(x) 函数y:在哈希表中的存储位置
-
存入哈希表
情况1:一次添加成功
情况2:多次添加成功(出现了冲突,调用equals()和对应链表的元素进行比较,比较到最后,结果都是false,创建新节点,存储数据,并加入链表末尾)
情况3:不添加(出现了冲突,调用equals()和对应链表的元素进行比较, 经过一次或者多次比较后,结果是true,表明重复,不添加)
-
结论1:哈希表添加数据快(3步即可,不考虑冲突)
-
结论2:唯一、无序
4.哈希表更多
1.如何查询数据
添加数据的过程是相同的
情况1:一次找到 23
情况2:多次找到 67
结论:哈希表查询数据快
2.hashCode和equals有什么用
hashCode(): 计算哈希码,是一个整数,根据哈希码可以计算出数据在哈希表中的存储位置
equals():添加时出现了冲突,需要通过equals进行比较,判断是否相同;查询时也需要使用equals进行比较,判断是否相同
可能会出现的问题:原内容不一样,经过hash计算后得到的结果一样的,这种情况称为hash碰撞。
String类型中的hashcode()方法。算法中数字31称为hash因子。定义hash因子时尽量选择一个靠近2的n次方的一个质数。可以在一定程度上减少hash碰撞。最后选择了一个不大,不小的hash因子31.
public static int hashCode(byte[] value) {
int h = 0;
for (byte v : value) {
h = 31 * h + (v & 0xff);
}
return h;
}
5.解决哈希碰撞的方法
1.开放定址法
当发生冲突时,通过一定的规则找到下一个可用的位置,并将键值对存储在该位置上。开放地址法的具体实现方式有线性探测,二次探测和双重散列等。
1.线性探测
线性探测是一种简单的开放地址实现方式。当冲突时,线性探测会依次向后寻找下一个位置,直到找到一个空闲的位置为止。这种方法的优点是实现简单,缺点是容易产生聚集现象,即连续的位置上存储了大量的键值对。
2.二次探测
二次探测是一种改进的开放性地址法实现方法。当发生冲突时,二次探测会使用相关的函数来计算下一个位置,以减少聚集现象的发生。
3.双重散列
双重散列是一种更加高效的开放地址法的实现方式。它使用两个不同的hash函数计算下一位置,以减少冲突的概率。
2.再哈希法
再哈希法是一种比较简单解决哈希冲突的方法,通过多次哈希函数计算,直到找到一个空闲的位置为止。
3.链地址法(hashmap就是这样处理的)
Hash表的每个单元作为链表的头节点。当发生冲突时放入到同一个hash值对应的链表中。
链地址法实现简单,不会产生聚集现象,单链表过程时,会导致查找效率降低。为了解决这个问题,可以采用红黑树代替链表,以提高查找效率。
4.建立溢出区
将哈希表分为基础表和溢出表两部分,凡是和基本表发生冲突的key存储到溢出表中,公共的溢出区使用链表解决冲突。
6.装填因子/加载因子/负载因子
哈希表的长度和表中的记录数的比例--装填因子:
如果Hash表的空间远远大于最后实际存储的记录个数,则造成了很大的空间浪费,如果选取小了的话,则容易造成冲突。在实际情况中,一般需要根据最终记录存储个数和关键子的分布特点来确定Hash表的大小。还有一种情况是可能事先不知道最终需要存储的记录个数,则需要动态维护Hash表的含量,此时可能需要重新计算Hash地址。
如果装填因子越小,表明表中还有很多的空单元。则添加发生冲突的可能性越小;而装填因子越大,则发生冲突的可能性就越大,在查找时所耗费的时间就越多。
二、HashMap底层源码分析(JDK1.7及以前)
1.结构介绍
JDK1.7及其以前,HashMap底层是一个数组+链表实现的哈希表存储结构,使用头插。
链表的每个节点就是一个Entry,其中包括:键key、值value、键的哈希码hash、执行下一个节点的引用next四部分。
static class Entry<K, V> implements Map.Entry<K, V> {
final K key; //key
V value;//value
Entry<K, V> next; //指向下一个节点的指针
int hash;//哈希码
}
2.内部成员变量含义
JDK1.7中HashMap的主要成员变量及其含义
public class HashMap<K, V> implements Map<K, V> {
//哈希表主数组的默认长度
static final int DEFAULT_INITIAL_CAPACITY = 16;
//默认的装填因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//主数组的引用!!!!
transient Entry<K, V>[] table;
int threshold;//界限值 阈值
final float loadFactor;//装填因子
public HashMap() {
this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
}
3.put()方法
调用put方法添加键值对。哈希表三步添加数据原理的具体实现;是计算key的哈希码,和value无关。特别注意:
-
第一步计算哈希码时,不仅调用了key的hashCode(),还进行了更复杂处理,目的是尽量保证不同的key尽量得到不同的哈希码
-
第二步根据哈希码计算存储位置时,使用了位运算提高效率。同时也要求主数组长度必须是2的幂
-
第三步添加Entry时添加到链表的第一个位置,而不是链表末尾
-
第四步添加Entry是发现了相同的key已经存在,就使用新的value替代旧的value,并且返回旧的value
/*hashCode()方法可以计算HashMap值(整数数字)
*
* Object中的hashCode()方法根据变量在内存中的地址进行计算,返回hash值。
* 重写后的HashCode()方法会根据属性值计算hash值,属性值相同,hash值相同。
* 注意:
* hash冲突,不同的值计算出的hash值是相同的。
*/
public class HashMap {
public V put(K key, V value) {
//如果key是null,特殊处理
if (key == null) return putForNullKey(value);
//1.计算key的哈希码hash
int hash = hash(key);
//2.将哈希码代入函数,计算出存储位置 y= x%16;
int i = indexFor(hash, table.length);
//如果已经存在链表,判断是否存在该key,需要用到equals()
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
//如找到了,使用新value覆盖旧的value,返回旧value
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;// the United States
e.value = value;//America
e.recordAccess(this);
return oldValue;
}
}
//添加一个结点
addEntry(hash, key, value, i);
return null;
}
final int hash(Object k) {
int h = 0;
h ^= k.hashCode();
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
static int indexFor(int h, int length) {
//作用就相当于y = x%16,采用了位运算,效率更高
return h & (length-1);
}
}
4.addEntry()方法
添加元素时如达到了阈值,需要扩容,每次扩容为原来主数组容量的2倍
void addEntry(int hash, K key, V value, int bucketIndex) {
//如果达到了门槛值,就扩容,容量为原来容量的2倍 16---32
if ((size >= threshold) && (null != table[bucketIndex])) {
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
//添加节点
createEntry(hash, key, value, bucketIndex);
}
5.get()方法
调用get方法根据key获取value。
哈希表三步查询数据原理的具体实现。
其实是根据key找Entry,再从Entry中获取value即可
public V get(Object key) {
//根据key找到Entry(Entry中有key和value)
Entry<K,V> entry = getEntry(key);
//如果entry== null,返回null,否则返回value
return null == entry ? null : entry.getValue();
}
三、HashMap底层源码分析(JDK1.8及以后)
在JDK1.8中有一些变化,当链表的存储数据个数大于等于8的时候,不再采用链表存储,而采用红黑树存储结构。这么做主要是查询的时间复杂度上,链表为O(n),而红黑树一直是O(logn)。如果冲突多,并且超过8长度小于6 会自动转成链表结构,采用红黑树来提高效率
1.基本属性
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
//序列化和反序列化时使用相同的id
private static final long serialVersionUID = 362498820763181265L;
//初始化容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//最大容量
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//树形阈值
static final int TREEIFY_THRESHOLD = 8;
//取消阈值
static final int UNTREEIFY_THRESHOLD = 6;
//最小树形容量
static final int MIN_TREEIFY_CAPACITY = 64;
//节点数组
transient Node<K,V>[] table;
//存储键值对的个数
transient int size;
//散列表被修改的次数(添加 | 删除)
transient int modCount;
//扩容临界值
int threshold;
//负载因子
final float loadFactor;
}
2.构造方法
//和1.7区别不大
//无参构造器,加载因子默认为0.75
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
//指定容量大小的构造器,但调用了双参的构造器,加载因子0.75
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//全参构造器
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//HashMap 的最大容量只能是 MAXIMUM_CAPACITY,哪怕传入的数值大于最大容量,也按照最大容量赋值
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
//加载因子必须大于0
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
//设置扩容阈值和1.7类似,目前该阈值不是正真的阈值
this.threshold = tableSizeFor(initialCapacity);
}
//将传入的子Map中的全部元素逐个添加到HashMap中
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
3.Node节点
前 1.7 是 Entry 结点,1.8 则是 Node 结点,其实相差不大,因为都是实现了 Map.Entry (Map 接口中的 Entry 接口)接口,即,实现了 getKey() , getValue() , equals(Object o )和 hashCode() 等方法;
static class Node<K,V> implements Map.Entry<K,V> {
//hash 值
final int hash;
//键
final K key;
//值
V value;
//后继,链表下一个结点
Node<K,V> next;
//全参构造器
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
//返回与此项对应的键
public final K getKey() { return key; }
//返回与此项对应的值
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
//hash 值
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
// 实现接口定义的方法,且该方法不可被重写
// 设值,返回旧值
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
//判断2个Entry是否相等,必须key和value都相等,才返回true
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
4.添加键值对
1.put()方法
//添加键值对
public V put(K key, V value) {
/*
*参数一: 调用hash()方法
*参数二: 键
*参数三: 值
**/
return putVal(hash(key), key, value, false, true);
}
2.hash()方法
static final int hash(Object key) {
int h;
//hashCode和h移位右移16位进行按位异或运算
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
3.putVal()方法
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
//申明tab 和 p 用于操作原数组和结点
Node<K,V>[] tab; Node<K,V> p;
int n, i;
//如果原数组是空或者原数组的长度等于0,那么通过resize()方法进行创建初始化
if ((tab = table) == null || (n = tab.length) == 0)
//获取到创建后数组的长度n
n = (tab = resize()).length;
//通过key的hash值和 数组长度-1 计算出存储元素结点的数组中位置(和1.7一样)
//并且,如果该位置为空时,则直接创建元素结点赋值给该位置,后继元素结点为null
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
//否则,说明该位置存在元素
Node<K,V> e; K k;
//判断table[i]的元素的key是否与添加的key相同,若相同则直接用新value覆盖旧value
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//判断是否是红黑树的结点,如果是,那么就直接在树中添加或者更新键值对
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//否则,就是链表,则在链表中添加或替换
else {
//遍历table[i],并判断添加的key是否已经存在,和之前判断一样,hash和equals
//遍历完毕后仍无发现上述情况,则直接在链表尾部插入数据
for (int binCount = 0; ; ++binCount) {
//如果遍历的下一个结点为空,那么直接插入
//该方法是尾插法(与1.7不同)
//将p的next赋值给e进行以下判断
if ((e = p.next) == null) {
//直接创建新结点连接在上一个结点的后继上
p.next = newNode(hash, key, value, null);
//如果插入结点后,链表的结点数大于等7(8-1,即大于8)时,则进行红黑树的转换
//注意:不仅仅是链表大于8,并且会在treeifyBin方法中判断数组是否为空或数组长度是否小于64
//如果小于64则进行扩容,并且不是直接转换为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
//完成后直接退出循环
break;
}
//不退出循环时,则判断两个元素的key是否相同
//若相同,则直接退出循环,进行下面替换的操作
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
//否则,让p指向下一个元素结点
p = e;
}
}
//接着上面的第二个break,如果e不为空,直接用新value覆盖旧value并且返回旧value
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
//添加成功后,判断实际存在的键值对数量size是否大于扩容阈值threshold(第一次时为12)
if (++size > threshold)
//若大于,扩容
resize();
//添加成功时会调用的方法(默认实现为空)
afterNodeInsertion(evict);
return null;
}
4.resize()方法 //扩容
//该函数有两种使用情况:初始化哈希表或前数组容量过小,需要扩容
final Node<K,V>[] resize() {
//获取原数组
Node<K,V>[] oldTab = table;
//获取到原数组的容量oldCap
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//获取原扩容阈值
int oldThr = threshold;
//新的容量和阈值目前都为0
int newCap, newThr = 0;
if (oldCap > 0) {
//如果原数组容量大于等于最大容量,那么不再扩容
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
//而没有超过最大容量,那么扩容为原来的2倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
//扩容为原2倍
newThr = oldThr << 1; // double threshold
}
//经过上面的if,那么这步为初始化容量(使用有参构造器的初始化)
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
//否则,使用的无参构造器
//那么,容量为16,阈值为12(0.75*16)
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
//计算新的resize的上限
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
//使用新的容量床架一个新的数组
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//将新的数组引用赋值给table
table = newTab;
//如果原数组不为空,那么就进行元素的移动
if (oldTab != null) {
//遍历原数组中的每个位置的元素
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
//如果该位置元素不为空,那么上一步获取元素接着置为空
oldTab[j] = null;
//判断该元素上是否有链表
if (e.next == null)
//如果无链表,确定元素存放位置,
//扩容前的元素位置为 (oldCap - 1) & e.hash ,所以这里的新的位置只有两种可能:1.位置不变,
//2.变为 原来的位置+oldCap,下面会详细介绍
newTab[e.hash & (newCap - 1)] = e;
//判断是否是树结点,如果是则执行树的操作
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
//否则,说明该元素上存在链表,那么进行元素的移动
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//通过loHead和hiHead来保存链表的头结点,然后将两个头结点放到newTab[j]与newTab[j+oldCap]上面去
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}