hashmap中的数据结构是数组+链表,如下图所示
transient Entry[] table;
内部存储Entry数组,Entry有个next成员变量形成链表
当put一个键值对时,首先会根据key计算得出一个hash值,然后需要分配到某个数组的某个下标index,这个地方最简单的就是根据数组长度取模运算(%)但是hashmap使用了效率更高的方式计算index,代码如下
h & (length-1)
使用计算得出的hash值&(length-1),那么这里按位与运算必须保证每个hash值都有可能落到数组的每个index上,并且要尽可能的均匀,那么这里为什么可以做到呢
这里就要讲到hashmap的数组Entry[] table的大小了,hashmap的内部数组大小必须保证是2的幂次方,我们可以在代码中看到一个精妙的算法
/**
* Returns a power of two size for the given target capacity.
*/
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
如上代码精妙的可以把一个数字转换为一个相近的2的幂次方,即使初始化Hashmap时传入的初始容量不是2的幂次也会被转化,我们再回到上面的问题
hash&(length-1),2的幂次-1转化为2进制可以保证得到的2进制值必定是某个位数的1,如16-1的2进制是1111,32是11111,64是111111…
0000 0100 1011 0011 1101 1111 1110 0101 (hash值&运算)
0000 0000 0000 0000 0000 0000 0000 1111 (16的2进制)
=
0000 0000 0000 0000 0000 0000 0000 0101
与运算的算法是只有两位对比都是1则得1,如hash&15即hash的2进制的后4位和1111比较,这里hash的后4位范围是0000-1111之间与上1111则最后的值是在0000-1111即0-15之间,即可保证运算后的值有可能落到数组的每一个下标,如果数组长度不是2的幂次,则数组的某几位下标index永远不会有值
如上算法可以保证hash的值可能落到数组每一个index,但是并不能保证hash计算后的值尽可能分散,上诉可以得出index的计算主要有hash的后几位和length-1计算得出,那么高位是不会影响index的,在hashmap里面计算hash时其实也使用了算法尽量使hash值离散,如下
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
hash算法使用了^ (h >>> 16),把hash值异或了hash值右移16位,即取高16位,如下:
0000 0100 1011 0011 1101 1111 1110 0001
>>> 16
0000 0000 0000 0000 0000 0100 1011 0011
由于绝大多数情况下length一般都小于2^16即小于65536。所以return h & (length-1);结果始终是h的低16位与(length-1)进行&运算。(hashcode为四字节),hash值是32位的,即只有后16位会影响index的计算,如何让哈希值的低16位更加随机,那么&结果就更加随机,如何让哈希值的低16位更加随机,那么就是让其与高16位异或运算
由上可以看到hashmap为了考虑性能的设计还是非常精妙的