Hashmap主要用哈希表(也叫散列表)实现,而哈希表的实现主要用到数组和链表(红黑树),先说哈希表。
哈希表的功能主要是方便查找,大概原理就是通过一系列的计算得到一个数字作为物理存储地址,查找的时候只需要对查找元素进行hash然后去得到的地址查找元素是否存在,如果该地址有元素代表查找成功,没有代表查找的这个集合中不存在这个元素。
但是哈希值通过一个设定的表达式计算出来的,在某些情况下不同元素可能得到一样的哈希值。
例如:把表达式设定为对15取余。
数组为{1,2,3,4,16,31}
计算哈希值分别是 1,2,3,4,1,1
前四个元素只需要按哈希值存储即可,但是1,15,31三个元素的哈希值都是一样的,这个时候就不能直接存储了。这个情况叫做散列冲突,处理散列冲突有多种方法:开放定址法、再散列函数法、链地址法、公共溢出区法。
hashMap处理冲突的方法是链地址法,在本来存储元素的地址中存储一个链表的头指针,哈希值相同的元素都存在这个链表中。
存储结构如上图。
但是这样用链表存储有产生了新的问题,当很多元素的哈希值相同的是时候,查找这些哈希值相同元素中的某个时,需要遍历整个链表,这样又会浪费很多时间。于是,在JDK8之后,当链表长度大于8的时候,hashmap会将链表转换为红黑树,这样效率会大大提高,当链表长度小于6的时候将红黑树在转换为链表。(为什么不在小于8的时候就转回链表呢?假设一个hashMap在一直进行插入删除操作,这样始终都需要进行链表红黑树的转换,转换过程代价过高,而小于6转回链表可以避免反复转换)
Hashmap的put方法是按键值对(key-value)存储的,通过键可以找到值。存储的时候通过对键进行哈希得到存储地址,然后声明一个键值对对象,将整个对象存在这个地址中(并不是只存了值)。
Get方法:对key哈希找到存储地址,如果只有一个直接取出,但是因为散列冲突金额能存在多个键值对对象(entry),这个时候就需要查找链表,但是值对应的对象用来查找链表中的对象。但是key是唯一的(不需要让两个对象比较,只需要让key和链表中对象的键一一比较),所以在put方法中找到存储地址之后,会调用keys.equals()方法去找到LinkedList中正确的节点,最终找到要找的值对象。
HaspMap的默认初始长度是16,并且每次扩展长度或者手动初始化时,长度必须是2的次幂。之所以是16,是为了服务于从Key值映射到index的hash算法。如果HashMap的大小超过了负载因子(load factor)定义的容量,怎么办?默认的负载因子大小为0.75,也就是说,当一个map填满了75%的bucket时候,和其它集合类(如ArrayList等)一样,将会创建原来HashMap大小的两倍的bucket数组,来重新调整map的大小,并将原来的对象放入新的bucket数组中。这个过程叫作rehashing,因为它调用hash方法找到新的bucket位置。