【Java集合】HashMap系列（一）——底层数据结构分析

小七mod

已于 2022-05-20 19:05:36 修改

阅读量3.5k

点赞数 8

分类专栏： # Java集合面试 Java 文章标签： java 数据结构散列表 HashMap 红黑树

于 2022-02-07 20:05:42 首次发布

本文链接：https://blog.csdn.net/cy973071263/article/details/122813802

版权

Java 同时被 3 个专栏收录

95 篇文章 19 订阅

订阅专栏

Java集合

22 篇文章 4 订阅

订阅专栏

面试

14 篇文章 32 订阅

订阅专栏

目录

一、HashMap 简介

二、底层数据结构分析

2.1 JDK1.8 之前

2.2 JDK1.8 之后

2.3 HashMap类的属性

2.4 Node 节点类源码

2.5 TreeNode树节点类源码

2.5 JDK1.7和JDK1.8数据结构的区别

一、HashMap 简介

HashMap 主要用来存放键值对，它基于哈希表的 Map 接口实现，是常用的 Java 集合之一，是非线程安全的，且不能保证元素的存储顺序。查询和修改的速度很快，能到到O(1)的平均复杂度。

HashMap 可以存储 null 的 key 和 value，但 null 作为key键只能有一个，null 作为value值可以有多个。

JDK1.8 之前 HashMap 由数组+链表组成的，数组是 HashMap 的主体，链表则是主要为了解决哈希冲突而存在的（“拉链法”解决冲突）。 JDK1.8 以后的 HashMap 在解决哈希冲突时有了较大的变化，当链表长度大于阈值（默认为 8）（将链表转换成红黑树前会判断，如果当前数组的长度小于 64，那么会选择先进行数组扩容，而不是转换为红黑树）时，将链表转化为红黑树，以减少搜索时间。

HashMap 默认的初始化大小为 16。之后每次扩充，容量变为原来的 2 倍。并且， HashMap 总是使用 2 的幂作为哈希表的大小。

二、底层数据结构分析

2.1 JDK1.8 之前

JDK1.8 之前 HashMap 底层是数组和链表，结合在一起使用也就是链表散列。

HashMap 通过 key 的 hashCode 经过扰动函数处理过后得到 hash 值，然后通过 (n - 1) & hash 判断当前元素存放的位置（这里的 n 指的是数组的长度），如果当前位置存在元素的话，就判断该元素与要存入的元素的 hash 值以及 key 是否相同，如果相同的话，直接覆盖，不相同就通过拉链法解决冲突。

所谓扰动函数指的就是 HashMap 的 hash() 方法。使用 hash 方法也就是扰动函数是为了防止一些实现比较差的 hashCode() 方法，换句话说使用扰动函数之后可以减少碰撞。

JDK 1.8 HashMap 的 hash() 方法源码:

JDK 1.8 的 hash 方法相比于 JDK 1.7 hash 方法更加简化，但是原理不变。

/**
 * JDK 1.8实现：将 键key 转换成 哈希码（hash值）操作 = 使用hashCode() + 1次位运算 + 1次异或运算（2次扰动）
 * 1. 取hashCode值： h = key.hashCode() 
 * 2. 高位参与低位的运算：h ^ (h >>> 16)
 */
static final int hash(Object key) {
    int h;
    // key.hashCode()：返回散列值也就是hashcode
    // ^ ：按位异或
    // >>>:无符号右移，忽略符号位，空位都以0补齐
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    // a. 当key = null时，hash值 = 0，所以HashMap的key 可为null      
    // 注：对比HashTable，HashTable对key直接hashCode（），若key为null时，会抛出异常，所以HashTable的key不可为null
    // b. 当key ≠ null时，则通过先计算出 key的 hashCode()（记为h），然后 对哈希码进行扰动处理： 按位 异或（^） 哈希码自身右移16位后的二进制
}

对比一下 JDK1.7 的 HashMap 的 hash 方法源码:

/**
 * 源码分析1：hash(key)
 * 该函数在JDK 1.7 和 1.8 中的实现不同，但原理一样 = 扰动函数 = 使得根据key生成的哈希码（hash值）分布更加均匀、更具备随机性，避免出现hash值冲突（即指不同key但生成同1个hash值）
 * JDK 1.7 做了9次扰动处理 = 4次位运算 + 5次异或运算
 * JDK 1.8 简化了扰动函数 = 只做了2次扰动 = 1次位运算 + 1次异或运算
 */
// JDK 1.7实现：将 键key 转换成 哈希码（hash值）操作  = 使用hashCode() + 4次位运算 + 5次异或运算（9次扰动）
final int hash(Object k) {
    // 设置了哈希种子
    int h = hashSeed;
    if (0 != h && k instanceof String) {
        return sun.misc.Hashing.stringHash32((String) k);
    }
    // Hash种子参与到了key的Hash值计算当中
    h ^= k.hashCode();
    // This function ensures that hashCodes that differ only by
    // constant multiples at each bit position have a bounded
    // number of collisions (approximately 8 at default load factor).
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}

相比于 JDK1.8 的 hash 方法，JDK 1.7 的 hash 方法的性能会稍差一点点，毕竟JDK1.7用了9次扰动处理=4次位运算+5次异或，而JDK1.8只用了2次扰动处理=1次位运算+1次异或。

所谓 “拉链法” 就是：将链表和数组相结合。也就是说创建一个链表数组，数组中每一格就是一个链表。若遇到哈希冲突，则将冲突的值加到链表中即可。

2.2 JDK1.8 之后

相比于之前的版本，JDK1.8 以后在解决哈希冲突时有了较大的变化。

当链表长度大于阈值（默认为 8）时，会首先调用 treeifyBin()方法（这个是HashMap自身的final方法）。这个方法会根据 HashMap 数组当时的状态来决定是否转换为红黑树。只有当数组长度大于或者等于 64 的情况下，才会执行转换红黑树操作，即调用树节点的方法treeify()，将链表转换为红黑树，以减少搜索时间。否则，就是只是执行 resize() 方法对数组扩容。

2.3 HashMap类的属性

首先先来明确几个HashMap的概念：

HashMap里面数组结构的每一个存储元素的位置被称为桶
桶中存放的数据被称为bin（bin这个概念会在HashMap源码中大量出现）

public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable {
    // 序列号
    private static final long serialVersionUID = 362498820763181265L;
    // 默认的初始容量是16   capacity译为容量。capacity就是指HashMap中桶的数量，但是注意HashMap里并没有这个成员属性
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
    // 最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;
    // 默认的填充因子（扩容因子），当数组的存储比例达到了0.75，数组就会进行两倍扩容
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
    // 当桶(bucket)上的结点数大于这个值时会转成红黑树
    static final int TREEIFY_THRESHOLD = 8;
    // 当桶(bucket)上的结点数小于这个值时树转链表
    static final int UNTREEIFY_THRESHOLD = 6;
    // 桶中结构转化为红黑树对应的table的最小大小
    static final int MIN_TREEIFY_CAPACITY = 64;
    // 存储元素的数组，数组长度总是2的幂次倍
    transient Node<k,v>[] table;
    // 存放具体元素的集
    transient Set<map.entry<k,v>> entrySet;
    // 存放元素的个数，表示当前HashMap包含的键值对数量。注意这个不等于数组的长度。
    transient int size;
    // 每次扩容和更改map结构的计数器，表示当前HashMap修改次数
    transient int modCount;
    // 数组扩容临界值（阈值） 当数组实际大小(容量*填充因子)超过临界值时，会进行扩容
    int threshold;
    // 加载因子（负载因子）
    final float loadFactor;
}

TREEIFY_THRESHOLD 树化阈

一个桶是由链表呈现还是红黑树呈现的节点数阈值，当一个桶中的元素个数超过该阈值时，该桶将会被转化为一课红黑树。

"treeify"这个词，如果取'ify'这个词根，这个词便有动词的词性，表达“to make sth”，结合"tree"，应该翻译成“树化”或者“成树”。treeify_threshold便完全表达了这个阈值的含义，即“限制成为一棵树的值”。

UNTREEIFY_THRESHOLD

一个桶是由链表呈现还是红黑树呈现的节点数阈值，当一个桶中的元素个少于过该阈值时，该桶将会从一颗红黑树转化为链表。

loadFactor 加载因子
loadFactor加载因子是控制数组存放数据的疏密程度，loadFactor 越趋近于1，那么数组中存放的数据(entry)也就越多，也就越密，也就是会让链表的长度增加，loadFactor越小，也就是趋近于0，数组中存放的数据(entry)也就越少，也就越稀疏。
loadFactor 太大导致查找元素效率低，太小导致数组的利用率低，存放的数据会很分散。loadFactor的默认值为 0.75f 是官方给出的一个比较好的临界值。
给定的默认容量为16，负载因子为0.75。Map 在使用过程中不断的往里面存放数据，当数量达到了 16 * 0.75 = 12 就需要将当前 16 的容量进行扩容，而扩容这个过程涉及到 rehash、复制数据等操作，所以非常消耗性能。
threshold
threshold = capacity（数组的总长度） * loadFactor，当 size（当前数组中包含元素数量）>=threshold的时候，那么就要考虑对数组的扩增了，也就是说，这个的意思就是衡量数组是否需要扩增的一个标准。

2.4 Node 节点类源码

Node节点是HashMap的static修饰的静态内部类，以下为其全部的源码。

// 继承自 Map.Entry<K,V>
static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;// key的哈希值，存放元素到hashmap中时用来与其他元素hash值比较
    final K key;//键
    V value;//值
    // 指向下一个节点（后驱节点），数组元素中的链表就是通过Node结构实现的
    Node<K,V> next;

    Node(int hash, K key, V value, Node<K,V> next) {
         this.hash = hash;
         this.key = key;
         this.value = value;
         this.next = next;
     }

     public final K getKey()        { return key; }
     public final V getValue()      { return value; }

	// 重写toString方法
     public final String toString() { return key + "=" + value; }

     // 重写hashCode()方法
     public final int hashCode() {
         return Objects.hashCode(key) ^ Objects.hashCode(value);
     }

	// 重新设置当前entry的值
     public final V setValue(V newValue) {
         V oldValue = value;
         value = newValue;
         return oldValue;
     }

     // 重写 equals() 方法
     public final boolean equals(Object o) {
		//如果内存地址一致直接返回true
         if (o == this)
             return true;
		//比较的节点必须实现这个Map.Entry
         if (o instanceof Map.Entry) {
             Map.Entry<?,?> e = (Map.Entry<?,?>)o;
             if (Objects.equals(key, e.getKey()) &&
                 Objects.equals(value, e.getValue()))
			   //键和值都相等才能返回true
                 return true;
         }
         return false;
     }
}

在HashMap类中有两个方法是用来创建Node节点的

// 调用Node构造方法创建Node节点
Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
    return new Node<>(hash, key, value, next);
}
// 用于从树节点转换为普通节点
Node<K,V> replacementNode(Node<K,V> p, Node<K,V> next) {
    return new Node<>(p.hash, p.key, p.value, next);
}

他们的用途在后面的源码讲解的时候会有所体现。

2.5 TreeNode树节点类源码

TreeNode是用来实现红黑树的树节点。该类也是HashMap的静态内部类。以下为TreeNode类的成员属性以及部分源码。在后面的章节中会详细讲解TreeNode源码。

首先我们先简单了解一下红黑树，红黑树是一个二叉搜索树，它在每个节点增加了一个存储位记录节点的颜色，可以是RED,也可以是BLACK；通过任意一条从根到叶子简单路径上颜色的约束，红黑树保证最长路径不超过最短路径的二倍，因而近似平衡。它同时满足以下特性：

(1) 每个节点要么是黑色，要么是红色

(2) 根节点是黑色

(3) 如果节点是红色的，那么它的子节点必须是黑色的（反之，不一定需要成立）。也就是说从叶子结点到根节点的路径上不能出现两个连续的红节点。

(4) 从根节点到叶节点或空子节点的每条路径，都包含相同数目的黑色节点（从任意节点到每个叶子结点的路径上包含相同个数的黑色节点）

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
    TreeNode<K,V> parent;  // 父
    TreeNode<K,V> left;    // 左
    TreeNode<K,V> right;   // 右
    TreeNode<K,V> prev;    // 前驱节点
    boolean red;           // 判断颜色

    TreeNode(int hash, K key, V val, Node<K,V> next) {
        super(hash, key, val, next);
    }

    // 返回根节点
    final TreeNode<K,V> root() {
	    // 所有节点节点，直到父节点为空的时候，该节点就是根节点
        for (TreeNode<K,V> r = this, p;;) {
            if ((p = r.parent) == null)
                return r;
            r = p;
        }
    }
}

在Hashmap类中有两个方法是用来创建TreeMap节点的

// 调用TreeNode构造方法创建TreeNode节点
TreeNode<K,V> newTreeNode(int hash, K key, V value, Node<K,V> next) {
    return new TreeNode<>(hash, key, value, next);
}
// 用于从普通节点转换为树节点
TreeNode<K,V> replacementTreeNode(Node<K,V> p, Node<K,V> next) {
    return new TreeNode<>(p.hash, p.key, p.value, next);
}

他们的用途在后面的源码讲解的时候会有所体现。