数据结构与集合之（3）Set 和 HashMap

最新推荐文章于 2023-02-10 00:35:33 发布

Ang Ga Ga

最新推荐文章于 2023-02-10 00:35:33 发布

阅读量180

点赞数

分类专栏： Java SE 文章标签： Set HashMap源码解析

本文链接：https://blog.csdn.net/weixin_41750142/article/details/109540061

版权

Java SE 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1、Set

   Set 不允许元素重复，主要有两个实现类：TreeSet 和HashSet。
   TreeSet 要求放进去的元素具有可比性，该类对象应该实现Comparable接口，覆写 compareTo 方法。
   HashSet 底层有个 HashMap ，是将添加的元素作为 key ,其 value 是一个 new 出来的 Object 对象：

private static final Object PRESENT = new Object();

它是通过元素的 hashCode 和 equals 方法来判断是否重复。这里的 hashCode 是个 native 方法，不由 java 实现，(本地方法可用于 Java 与底层操作系统交互) 为不同的对象生成不同的整型数字（可为负数），即内存地址。

public native int hashCode();

2、Map

    Map用来存键值对类型的数据。重要的子类有HashMap,TreeMap。
    Map 的每一个键值对都是一个 Entry。
♥    HashMap 是基于 hash 表的数组（索引效率高，查找快，插入、删除慢）和链表（相反）相结合的数据结构。数组被分为若干个桶。桶可以提供常量级时间性能。
   HashMap 不能保证 map 的次序，不能保证次序随时间不变。
   HashMap 与 HashTable 大致相同，不过它非同步，线程不安全，它允许null。

有参构造

    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: "
             +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

阈值

static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

阈值设置为 2 的幂次方。

最大容许阈值

 static final int MAXIMUM_CAPACITY = 1 << 30;

   即2的30次方。

♥    它的有参构造方法会传入两个重要参数：initialCapacity 【初始容量】和loadFactor 【负载因子】。（如果是无参构造，在构造方法中只会给负载因子赋值，resize() 时才会给初始容量赋值）初始容量即桶的初始数量，负载因子用来描述当桶的装载程度达到多少时会进行再散列。负载因子不宜太大：说明空间利用程度高，散列冲突的几率大，链表就长，查找效率变低；不宜太小:容易触发扩容，造成空间浪费。
   这个构造方法还会给threshold 【阈值】属性赋值，阈值=容量*负载因子，调用 tableSizefor (initialCapacity) ,该方法会先判断传入的值是否为2的幂次方且大于0且小于最大容许阈值(2^30)，否则返回比它大的最小的2次幂。
   ❓ 为什么要设置成2次幂呢❓ 因为计算 key 对应的桶索引时，是用 key 对应的 hashCode%桶的数量，如果桶的数量是 2 的幂次方，那么该区域计算等价于&（除数-1），按位与计算效率高。而桶的数量受阈值影响，如果通过有参构造算出的阈值为2的幂次方，那么这个桶的数量也一定会为2的幂次方。

  transient Node<K,V>[] table;


//数组是由 Node 构成的，Node 是实现了 Entry 的静态类
//Entry 是个接口
 static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

   数组被分为一个个桶（bucket），即一个桶对应一个下标，给定 key值时，用 key 对应的 hashCode 对桶的数量取余，求得桶的索引，如果索引相同，用拉链法解决冲突，即桶上链链表。每一个桶都是Node<Key,Value>，属性为key,value,next; 整个hash表是一个Node数组:Node<Key,Value>[] table。
   在 JDK1.8上添加了新性能：当链表长度大于 8 时转换为红黑树。节点变为TreeNode，属性为 parent, left, right, red(boolean类型)。
   HashMap采用的是懒加载机制，当第一次调用 put 时，（put内部只是调用putVal方法）发现table==null或table.length==0,才调用 resize() 进行扩容。每次put完都会给 size+1,（ ArrayList也是这样）如果size>threshold,则需要扩容，调用resize()方法。

resize()方法

    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;


//原容量，即数组长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
//原阈值
        int oldThr = threshold;


        int newCap, newThr = 0;

        //如果数组已经有元素
        if (oldCap > 0) {

            //如果初始容量大于2的30次方
            if (oldCap >= MAXIMUM_CAPACITY) {
            
                //阈值赋为 2的31次方 -1
                threshold = Integer.MAX_VALUE;
                
                //返回原数组
                return oldTab;
            }
            
            //如果初始容量没有大于2的30次方
            //如果双倍扩容后小于2的30次方，且 原容量大于16
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                //阈值加倍
                newThr = oldThr << 1; 
                // double threshold
        }

       //数组为空
       
       //如果已经通过构造方法改变初始容量和负载因子，则阈值也被改变
        else if (oldThr > 0) 
        
        // initial capacity was placed in threshold
            //将原阈值作为新容量        
           newCap = oldThr;
       
         //无参构造的情况       
        else {               
        // zero initial threshold signifies using defaults
            //无参构造，就将新容量赋为 16
            newCap = DEFAULT_INITIAL_CAPACITY;

            //新阈值为 初始容量*负载因子 即 16*0.75=12
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {

//通过构造方法传入初始容量和负载因子的
//新阈值为 初始容量*负载因子
            float ft = (float)newCap * loadFactor;

            //判断新容量、阈值是否小于 是否小于允许最大的2的30次方
            //赋值 或 只能是允许的最大整数值 2的31次方-1
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        
        threshold = newThr;

♥下面来分析resize()方法，由上一段可知，它起到两个作用：
（1）初始化桶数组。
（2）填充程度达到 threshold 时进行扩容。其实它不仅是容量、阈值变化，还完成了扩容后数据的转移。先看容量、阈值变化的部分，其中newCap的值用于扩容后数据转移至新table用，newThreshold会再赋给threshold,用于判断何时需要再散列。

   是这样的：
   以数组是否为空分情况：
   先计算当前数组的长度，如果数组不为空，而长度大于 2的30次方，那么阈值就赋为整数最大值 2的 31次方-1，返回原数组即可；
   如果数组没有那么大，就双倍扩容，如果双倍扩容后的容量大于 2的30次方，阈值取整数最大值 2的31次方-1，如果没有，那么阈值也跟着双倍扩容（因为负载因子不变呀）。
   对于默认无参构造的情况，会先给初始容量赋默认值 16，阈值是160.75=12。
   如果数组为空（比如清空了，有别于默认无参构造，它是传入过初始容量和负载因子的），那么就以阈值作为新容量。然后用新容量乘以负载因子求得新阈值。举个例子，通过构造方法传入初始容量为16，负载因子为 0.75，而这个 HashMap 被清空了，那么新容量就是 160.75=12，新的阈值是 12*0.75=9，数组的长度为12，达到 9就扩容。
   确定了阈值和新容量后，就会把原来数组的内容放到新数组 newTab中。♥

    @SuppressWarnings({"rawtypes","unchecked"})
        //新建容量为 newCap 的数组
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        
    table = newTab;
    if (oldTab != null) {

        //遍历原数组
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            
            //取得节点，并把该节点置为 null
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;

                //如果没有链链表
                if (e.next == null)
                    //直接赋值，因为长度变化了，需要重新计算
                    newTab[e.hash & (newCap - 1)] = e;

                //如果是红黑树
                else if (e instanceof TreeNode)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        
                        //说明位置不需要改变
                        //链成链表
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                                
                            else
                                loTail.next = e;
                            loTail = e;
                        }

                        //将位置需要改变的也链成链表
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);


                    //然后将两个链表链到新数组对应的位置
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    //位置改变的也就是坐标加了个 oldCap
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

    ♥执行完扩容，新建长度为newCap 的 newTab ,接下来需要转移数据，步骤如下：
    遍历Node[ ] oldTab数组，先取得当前节点，后把原数组oldTab该节点置为null。
    如果该节点并没有链链表，直接往新数组 newTab 赋值即可，但是因为经历了扩容，数组长度即桶的数量改变，因此需要再散列，下标为e.hash & (newCap - 1)。
    如果该节点链了链表，先判断是否红黑树，如果是，会调用 split() 方法拆分，如果只是链表，会通过（e.hash()&oldCap），结果为0，说明位置不需要改变。将位置不需要改变【lohead，,lotail）的和位置需要改变(hihead,hitail)的分别链成两个链表，然后才把这两个链表链到新数组newTab的相应位置。
    这样避免了因为HashMap线程不安全可能导致的循环链表，调用get方法时出现死循环，而且链表尾插，数据不会逆序。♥

    Map的public Set<key,value> entrySet()方法返回的是一个EntrySet类的对象，EntrySet继承了AbstractSet,返回的并不是真正的Set，只是一个Set视图，格式是 [key=value] 。
    同理，keySet方法返回的是一个KeySet类的对象，KeySet类继承了AbstractSet。
    values方法返回的是一个Value类的对象，Value类继承了AbstractCollection。（因为value是允许重复的，所以不是Set）

put方法

❓ 为什么调用 HashMap 的 put 给的 key 重复时，会覆盖原来 key 对应的 value，然后返回原来的 value ❓
答：HashMap的 put 方法是这样的：

 public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

相当于调用了putVal方法：

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        
        //数组为null或长度为0时
        if ((tab = table) == null || (n = tab.length) == 0)

            //扩容
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
            
        //如果数组已经有元素
        else {
            Node<K,V> e; K k;
            //就根据 key 求得的 hash 计算桶索引
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                //如果索引处节点为 null，直接插入即可
                e = p;
                
             //如果已有元素，直接覆盖，返回原 key 对应的 value
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

    从这个方法可以看到：
    如果当前 table=null 或长度为0，就调用 resize() 方法，初始化 table,否则根据桶的长度和由 key 求得的 hash 值计算桶索引，
    如果当前node节点为null，直接插入即可；
    如果当前node节点不为null，已经有元素了，说明发生了哈希冲突，如果key值相同，直接将节点覆盖，返回原来的 key 对应的 value 。
    如果key值不同，检查该节点是否为红黑树的节点，如果是，调用putTreeVal，如果不是，在链表尾插元素即可，尾插时注意当链表节点为8时需要转换成二叉树，返回null。

HashTable 和HashMap 的区别：

（1）与 Hashtable 1.2 相比，HashMap 1.0 不同步，是非线程安全的，允许 null 值。
（2）Hashtable 继承自 Directory，HashMap 继承自 AbstractMap.
（3）HashMap 默认初始容量为 16，总是 2 的幂次方。
（4）Hashtable默认初始容量为11，扩容机制是oldCap*2+1。
（5）HashMap 的 keySet 方法中遍历元素用的是 Iterator，而Hashtable由于版本遗留原因，用的是Iterator和Enumeration。（线程安全的 Vector 也用的是Enumeration.）
（6）HashMap 取消了原来 HashTable 有的 contains(Object value) 方法，改成了containsKey 和 containsValue。
（7）散列方式不同，Hashtable 直接用的 hashCode。
Hashtable 源码里说，如果需要线程安全，建议使用 HashMap;如果需要并发操作，建议使用 ConCurrentMap。
（我自己发现的🤭 ：在 Map 接口中有 Entry 接口，在 Hashtable 中有个静态内部类Entry 实现了这个接口，而在 JDK1.8 中，HashMap 是有个静态类 Node 实现了 Entry接口。）

HashMap中出现的与运算

putVal() 通过 key 确定桶索引

tab[i = (n - 1) & hash]

除数是 2 的幂次则等价于其除数-1 的与& 操作。
比如 7%4=7&(4-1)。

resize() 无链表时，直接转移数据

 newTab[e.hash & (newCap - 1)] = e;

resize()桶链不是红黑树时，判断节点位置是否改变

  if ((e.hash & oldCap) == 0)

    以 oldCap=16 为例。我们知道，为 key 寻找对应的桶索引是用 key.hash&(capacity-1)，16-1=15 的二进制表示为：
00001111
    经过双倍扩容后，这时的 capacity-1 变为 16*2-1=31，二进制表示为:
00011111
    与 key 的 hashCode 进行与运算，可以看出，主要影响结果的是 hashCode 的低 5 位，而 oldCap=16，它的二进制表示为：
00010000
    如果 hashCode 的低 5 位为 “0”，它 &（oldCap-1）与&（newCap-1）结果相同，即位置不需要改变，而 &oldCap 结果为0；同理，如果hashCode 的低 5 位为“1”，它&（oldCap-1）与&（newCap-1）结果不同，即位置需要改变，且到新数组 newTab 中的位置正好是原位置 +oldTab,而 &oldCap 结果为1。

Ang Ga Ga

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
数据结构与集合之（3）Set 和 HashMap

文章目录1、Set2、Map有参构造阈值最大容许阈值resize()方法put方法HashTable 和HashMap 的区别：HashMap中出现的与运算1、Set     Set 不允许元素重复，主要有两个实现类：TreeSet 和HashSet。     TreeSet 要求放进去的元素具有可比性，该类对象应该实现Comparable接口，覆写 compareTo 方法。    &
复制链接

扫一扫