1、问:hashmap在JDK1.7与JDK1.8中有什么区别?
答:最大的区别是底层数据结构的变化,在JDK1.7中,hashmap是数组+链表,在JDK1.8中hashmap是数组+(链表|红黑树)。
2、问:那么为什么hashmap会在JDK1.8中引入红黑树呢?为何一上来不树化?树化的阈值为何是8?何时会树化?何时会退化为链表?
答:
①引入红黑树来避免Dos攻击,防止链表超长时性能下降,而树化应该是偶然情况,非必要时不树化。
②hash表的查找,更新的时间复杂度是O(1),而红黑树的查找,时间复杂度为O(log2n),树结构TreeNode的占用空间也比普通链表Node的大,如非必要,尽量还是使用链表。
③hash值如果足够随机,则在hash表内按泊松分布,在负载因子为0.75的情况下,长度超过8的链表出现的概率是亿分之六,阈值选择8就是为了让树化几率足够小。
④树化的两个条件:链表长度超过树化阈值;数组容量>=64;
⑤退化情况1:在扩容时如果拆分树时,树元素个数<=6则会退化为链表;退化情况2:remove树节点时,若root、root.left、root.right、root.left.left有一个为null,也会退化为链表(注意是remove之前)。
3、问:hashmap索引如何计算?hashcode都有了,为何还要提供hash()方法?数组容量为何时2的n次幂?
答:
①计算对象的hashcode(),再进行调用HashMap的hash()方法进行二次哈希,最后&(容量-1)或与容量取模得到索引值。
②二次hash()是为了综合高位的数据,让哈希分部更加均匀。
③计算索引时,如果是2的n次幂可以使用位与运算代替取模,效率更高;扩容时hash&原始容量==0的元素留在原来位置,否则新位置=旧位置+原始容量;
④但①②③都是为了配合容量为2的n次幂时的优化手段,例如hashtable的容量就不是2的n次幂,并不能说哪种设计更优,应该是设计者综合了各种因素,最终选择了使用2的n次幂作为容量。
4、问:介绍一下hashmap put方法流程,该方法在jdk1.7与1.8有何不同?
put 流程
①HashMap 是懒惰创建数组的,首次使用才创建数组。
②计算索引(桶下标)。
③如果桶下标还没人占用,创建 Node 占位返回。
④如果桶下标已经有人占用:已经是TreeNode,走红黑树的添加或更新逻辑;如果是普通的Node,走链表添加或更新逻辑;如果链表长度超过树化阈值,走树化逻辑。
⑤返回前检查容量是否超过阈值,一旦超过进行扩容;
1.7 与 1.8 的区别
①链表插入节点时,1.7 是头插法,1.8 是尾插法。
②1.7 是大于等于阈值且没有空位时才扩容,而 1.8 是大于阈值就扩容。
③1.8 在扩容计算 Node 索引时,会优化。
5、问:加载因子为何默认是0.75f?
①在空间占用与查询时间之间取得较好的权衡。
②大于这个值,空间节省了,但链表就会比较长影响性能。
③小于这个值,冲突减少了,但扩容就会更频繁,空间占用也更多。
6、问:hashmap在多线程下会有什么问题?
①扩容死链(1.7)。
②数据错乱(1.7,1.8)。
7、问:key是否为null?作为key的对象有什么要求?
①HashMap 的 key 可以为 null,但 Map 的其他实现则不然。
②作为 key 的对象,必须实现 hashCode 和 equals,并且 key 的内容不能修改(不可变)。
③key 的 hashCode 应该有良好的散列性。
8、问:什么情况下hashmap会发生扩容?
①在JDK1.7中,扩容需要满足如下两个条件:
(1)存放新值时当前已有元素的个数大于等于阈值(容量的75%)。
(2)存放新值时当前存放数据发生了hash碰撞(不同元素有相同的桶下标)。
②在JDK1.8中,扩容只需要满足一个条件:
(1)当存放新值时(不是替换已有元素)已有元素的个数大于等于阈值或者存入数据到某一条链表上,此时该链表的长度大于8且容量小于64即发生扩容。