1、为什么不用取模(%),而是使用按位与(&)进行下标计算?
答:按位与(&)比取模(%)效率高。因为取模(%)是将十进制转换为二进制计算后再将结果转换为十进制;按位与(&) 是直接进行二进制运算,效率高。当然,如果不考虑效率问题,使用取模(%)也是可以实现的。
2、为什么集合大小一定要是2的幂?
答:公式为hash%length==hash&(length-1),前提是 length 是2的 n 次方。用2的n次幂减一这样的数 & 另一个数就相当于 这个数取余 (%) 2的n次幂。如果不能满足2的n次幂条件,会导致hash分布不均匀,增加hash冲突,造成资源浪费。
下图为 数字1-10000存储在 集合大小为1-20长度的分布情况,红色为2的幂。
由图可见:只有红色的2的幂是hash分布均匀并且占满所有下标,其他集合长度都有空的位置,会导致hash分布不均匀,增加hash冲突,造成资源浪费
3、手动计算下标,手写按位与算法?
答:由上图源码可知,计算下标公式为(n - 1) & hash。补充:(n - 1) & hash = hash &(n - 1),结果一样。
按位与计算规则:等式上下 都是1 结果为1否则为0,二进制计算。
例:集合长度为 8,hash为 3 代入公式: (8-1)& 3
00000011 3
00000111 7 &
--------------------
00000011 3 结果为3 满足问题2中 hash%length==hash&(length-1) => 3%8 == 3&(8-1)
例:集合长度为 7,hash为 3 代入公式: (7-1)& 3 不是2的幂
00000011 3
00000110 6 &
--------------------
00000010 2 结果为2 不满足问题2中 hash%length==hash&(length-1) => 3%7(3) == 3&6(2)
更多例子自己可以试试。此计算也证明了:如果集合长度不是2的幂,不能与取模进行等于替换。
也就是说:公式为hash%length==hash&(length-1)的前提 length 必须是2的 n 次方。
4、为什么集合默认是16?
答:因为16是2的幂,作者觉得16是一个合理的数字。是经过长时间经验所得。如果值过大会导致资源浪费。如果值过小就会导致频繁扩容。当然,自己在创建HashMap对象时,可以根据业务指定默认大小。
5、为什么加载因子是0.75?
答:作者经过测试算出,0.75是一个合理的数字。如果值过大(0.9)会导致hash冲突,链表过长,降低查询效率。如果值过小(0.1)就会导致频繁扩容,浪费资源。
未完待续。。。