深入理解HashMap

最新推荐文章于 2022-09-28 09:14:09 发布

未来谁可知

最新推荐文章于 2022-09-28 09:14:09 发布

阅读量148

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/jiohfgj/article/details/104738198

版权

java 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

引言

HashMap 根据键的 hashCode 值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历顺序却是不确定的。 HashMap 最多只允许一条记录的键为 null ，允许多条记录的值为 null 。HashMap 非线程安全，即任一时刻可以有多个线程同时写 HashMap，可能会导致数据的不一致。如果需要满足线程安全，可以用 Collections的synchronizedMap 方法使 HashMap 具有线程安全的能力，或者使用ConcurrentHashMap。

HashMap基本原理

HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作，并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。
在java编程语言中，最基本的结构就是两种，一个是数组，另外一个是模拟指针（引用），所有的数据结构都可以用这两个基本结构来构造的，HashMap也不例外。HashMap实际上是一个“链表散列”的数据结构，即数组和链表的结合体。
HashMap是数组+链表+红黑树（JDK1.8增加了红黑树部分）实现的，

HashMap的扩容机制

什么时候扩容：当向容器添加元素的时候，会判断当前容器的元素个数，如果大于等于阈值—即当前数组的长度乘以加载因子的值的时候，就要自动扩容啦。(这里就是懒加载)

jdk1.7 一般我们在扩容的时候，一般是把长度扩为原来2倍，所以，元素的位置要么是在原位置，要么是在原位置再移动2次幂的位置。

扩容(resize)就是重新计算容量，向HashMap对象里不停的添加元素，而HashMap对象内部的数组无法装载更多的元素时，对象就需要扩大数组的长度，以便能装入更多的元素。当然Java里的数组是无法自动扩容的，方法是使用一个新的数组代替已有的容量小的数组，就像我们用一个小桶装水，如果想装更多的水，就得换大水桶。

void resize(int newCapacity) {   //传入新的容量  
    Entry[] oldTable = table;    //引用扩容前的Entry数组  
    int oldCapacity = oldTable.length;  
    if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了  
        threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1)，这样以后就不会扩容了  
        return;  
    }  
    Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组  
    transfer(newTable);                         //！！将数据转移到新的Entry数组里  
    table = newTable;                           //HashMap的table属性引用新的Entry数组  
    threshold = (int) (newCapacity * loadFactor);//修改阈值  
}

我们分析下resize的源码，鉴于JDK1.8融入了红黑树，较复杂，为了便于理解我们仍然使用JDK1.7的代码，好理解一些，本质上区别不大，具体区别后文再说。

这里就是使用一个容量更大的数组来代替已有的容量小的数组，transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。

void transfer(Entry[] newTable) {  
    Entry[] src = table;                   //src引用了旧的Entry数组  
    int newCapacity = newTable.length;  
    for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组  
        Entry<K, V> e = src[j];             //取得旧Entry数组的每个元素  
        if (e != null) {  
            src[j] = null;//释放旧Entry数组的对象引用（for循环后，旧的Entry数组不再引用任何对象）  
            do {  
                Entry<K, V> next = e.next;  
                int i = indexFor(e.hash, newCapacity); //！！重新计算每个元素在数组中的位置  
                e.next = newTable[i]; //标记[1]  
                newTable[i] = e;      //将元素放在数组上  
                e = next;             //访问下一个Entry链上的元素  
            } while (e != null);  
        }  
    }  
}

static int indexFor(int h, int length) {  
    return h & (length - 1);  //与运算，寻找key所在数组下标
}

newTable[i]的引用赋给了e.next，也就是使用了单链表的头插入方式，同一位置上新元素总会被放在链表的头部位置；这样先放在一个索引上的元素终会被放到Entry链的尾部(如果发生了hash冲突的话），这一点和Jdk1.8有区别，下文详解。在旧数组中同一条Entry链上的元素，通过重新计算索引位置后，有可能被放到了新数组的不同位置上。

HashMap出现循环链表

这个问题专门指jdk1.7里面hashmap线程不安全，因为会出现循环链表，在多个线程同时进行扩容得时候由于指针会不停变换，
这里拿两个线程来指，并且是在不执行rehash得情况下
第一个线程会新建个2倍空间得数组然后根据头指针得不断插入然后指针链表会倒置，然后这时候haspMap开始第二个线程得扩容，他的next会指向空，而e指向e.next得时候就出现循环

//resize方法片段
do {  
                Entry<K, V> next = e.next;  
                int i = indexFor(e.hash, newCapacity); //！！重新计算每个元素在数组中的位置  
                e.next = newTable[i]; //标记[1]  
                newTable[i] = e;      //将元素放在数组上  
                e = next;             //访问下一个Entry链上的元素  
            } while (e != null);

哈希碰撞

index数组下标根据hashcode进行位运算和hash算法然后的出来的
table数组长度有限，当加入的数据过多时总会出现有些key值生成的hash值相同的情况，也就是说不同key值可能会对应同样的index，这种情况就叫做哈希冲突

解决方法：
jdk1.7 将所有关键字为同义词的记录存储在同一线性链表中
jdk1.8HashMap使用链表和红黑树避免哈希冲突（相同hash值），当链表长度大于TREEIFY_THRESHOLD（默认为8）时，将链表转换为红黑树，当然小于UNTREEIFY_THRESHOLD（默认为6）时，又会转回链表以达到性能均衡。

HashMap,jdk1.7与1.8的区别

（1）、JDK7：创建hashMap对象时，则初始化table容量为16
JDK8：创建hashMap对象时，没有初始化table，仅仅只是初始化负载因子。当只有第一次添加时才会初始化table容量为16
（2）、JDK7：table的类型为Entry
JDK8：table的类型为Node
（3）、JDK7：哈希表为数组+链表，不管链表的总结的数是多少，都不会变成树结构
JDK8：哈希表为数组+链表+红黑树，(节点数>=8） &&桶的总个数（table的容量）>= 64) 时，会将链表结构变成红黑树
详细区别

HashMap和HashTable区别

HashMap和HashTable都是针对Map接口的实现，所以它们的功能是差不多的，它们的主要区别在线程安全这一块，先说结论：HashMap线程不全，而HashTable则是线程安全的

put的时候导致的多线程数据不一致

比如有两个线程A和B，首先A希望插入一个key-value对到HashMap中，首先计算记录所要落到的 hash桶的索引坐标，然后获取到该桶里面的链表头结点，此时线程A的时间片用完了，而此时线程B被调度得以执行，和线程A一样执行，只不过线程B成功将记录插到了桶里面，假设线程A插入的记录计算出来的 hash桶索引和线程B要插入的记录计算出来的 hash桶索引是一样的，那么当线程B成功插入之后，线程A再次被调度运行时，它依然持有过期的链表头但是它对此一无所知，以至于它认为它应该这样做，如此一来就覆盖了线程B插入的记录，这样线程B插入的记录就凭空消失了，造成了数据不一致的行为。

HashMap的初始容量为16，Hashtable初始容量为11，两者的填充因子默认都是0.75
HashMap扩容时是当前容量翻倍即:capacity2，Hashtable扩容时是容量翻倍+1即:capacity2+1。
HashMap可以使用null作为key，不过建议还是尽量避免这样使用。HashMap以null作为key时，总是存储在table数组的第一个节点上。而Hashtable则不允许null作为key。
HashMap继承了AbstractMap，HashTable继承Dictionary抽象类，两者均实现Map接口。
HashMap的resize可能会引起死循环（仅针对JDK 1.7),而hashTable不会因为他每个方法有synchronized
外需要说明的是，由于HashTable为了实现线程安全使用了synchronized关键字，它的执行速度会比HashMap慢，所以在不存在并发的时候优先考虑使用HashMap，而存在并发的情况下为了保证线程安全，建议使用HashTable

ConcurrentHashMap核心原理

锁分段技术 Hashtable容器在竞争激烈的并发环境下表现出效率低下的原因是所有访问Hashtable的线
程都必须竞争同一把锁。假如容器里有多把锁，每一把锁用于锁容器其中一部分数据，那么当多线程访
问容器里不同数据段的数据时，线程间就不会存在锁竞争，从而可以有效的提高并发访问效率，这就是
ConcurrentHashMap所使用的锁分段技术，首先将数据分成一段一段的存储，然后给每一段数据配一
把锁，当一个线程占用锁访问其中一个段数据的时候，其他段的数据也能被其他线程访问。

HashMap和ConcurrentHashMap

ConcurrentHashMap 不允许空键值对,HashMap允许一个key为null多个value为null
前者线程不安全后者线程安全，引入 ConcurrentHashMap 是为了在同步集合HashTable之间有更好的选择； HashTable 与 HashMap 、ConcurrentHashMap 主要的区别在于HashMap不是同步的、线程不安全的和不适合应用于多线程并发环境下，而 ConcurrentHashMap 是线程安全的集合容器

未来谁可知

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入理解HashMap

引言HashMap 根据键的 hashCode 值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历顺序却是不确定的。 HashMap 最多只允许一条记录的键为 null ，允许多条记录的值为 null 。HashMap 非线程安全，即任一时刻可以有多个线程同时写 HashMap，可能会导致数据的不一致。如果需要满足线程安全，可以用 Collections的synchro...
复制链接

扫一扫