在java中,hashMap是一个经常使用的类,他负责存储一系列由键值对组成的数据,由键映射到值。最主要的优点是查找迅速。
我们先谈较为简单版本的。
我们都知道,hashMap底层是靠数组和链表的结合体来实现的,但是具体是怎么实现的呢?
首先,hashMap默认创建一个长度为16的数组(至于为什么长度是16,之后再解释)。每一个数组上存储的是一个Entry对象,Entry对象中含有键值对,和指向下一个Entry对象的指针next。
当一个键值对A存储在下标为0的位置时,下一个键值对B可能存储在下标为1的位置或者其他的位置,也可能也要存储在下标为0的位置,这取决于该键值对的键。这时候0上已经存储了A了,所以这时候需要将A上的Entry对象中的next指向B。这种情况可能会在每一个下标上出现。
那我们来说说具体如何决定键值对应该存在哪。
当调用hashMap的put方法时,先得到其键的hashCode(这其实很简单,因为每一个对象都会有hashCode这个方法,hashCode是继承自Object),hashMap并不是直接使用键的hashCode,而且在其基础上再求了一次散列值。
1.h ^= (h >>> 20) ^ (h >>> 12);
2.return h ^ (h >>> 7) ^ (h >>> 4);
h就是键本来的的hashCode。那为什么要这么做的?或许你不是很了解为什么要无符号右移,为什么要做异或运算。但是,你只需要了解最终的目的,这个算法的目的是为了hashCode任意位的变化基本都能反应到最终的定位算法中。
hashMap做这些看起来多余的操作其实都是为了尽可能减少hash冲突。减少hash冲突,那对Entry数组的查找的效率就越高。因为减少hash冲突,一个下标上的Entry链就越少,查找时遍历这个链所需要的时间越少。
那为什么做了散列运算就能减少hash冲突呢?
继续往下看。
对键的hashCode再进行一次求散列值得到newHashCode,然后求newHashCode 和(length-1)的与运算,length是Entry数组的长度。newHashCode&(length-1)所得到的结果就是下标了。
在length是2的n次方的情况下,跟(length-1)做与运算,其实就是对length求模,只不过这样效率更高(这就是为什么默认Entry数组的长度为16了,当然数组长度为2的n次方的原因不止如此,你可以想象得到,如果length为2的n次方,那么经过再求一次散列所得到的newHashCode模length,得到的结果就是newHashCode二进制的后几位,而再求一次散列的目的再次也得以体现。hashMap的设计是如此的精妙)。
现在明白了为什么hashMap要对键的hashCode做散列运算了吧。这样做的目的是防止两个键,他们的hashCode可能不同,但模Entry数组的长度所得到下标却相等(会出现这种情况,比如A的hashCode是17,而B的hashCode是1,他们和(length-1)的与运算的结果都为1)而造成的hash冲突。
当hashMap的客座率超过数组长度的0.75(默认)时,hashMap就会扩展为原来的两倍(这样新的hashMap长度同样为2的n次方)。
但是hashMap还有缺陷,就是可能会出现很多键值对都存储在同一个下标中,这样hashMap基本就退化成链表了。jdk1.8开始,hashMap如果同一下标存储的Entry对象过多,就会转化为红黑树。至于红黑树,我们下一节讨论。