[Java基础]直面HashMap


前言

HashMap在平时Android开发中会经常遇到,所以了解了它的原理才能更好地去使用它。


概念

1.什么是HashMap

HashMap 是Java中的集合容器,以key-value键值对存储对象,数据结构在1.7以前是数组+链表,在1.8之后是数组+链表+红黑树。


问题

1.HashMap原理(1.7)

HashMap底层是通过数组的形式存储数据,每个元素是链表的头节点,其中链表的结点又是一个Entry对象,存储了真正的内容信息,比如key,value,hashcode,next结点。
在这里插入图片描述

2.HashMap put的过程

首先HashMap在构造的时候定义了初始容量

//最简单的构造函数,最终都是调用最下面的HashMap(int initialCapacity, float loadFactor)
//DEFAULT_INITIAL_CAPACITY 默认容量  16
//DEFAULT_LOAD_FACTOR 默认加载因子 0.75
 public HashMap() {
     this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
 }

 public HashMap(int initialCapacity) {
     this(initialCapacity, DEFAULT_LOAD_FACTOR);
 }

  //HashMap构造函数,最终都会调用到这里
  
 public HashMap(int initialCapacity, float loadFactor) {
     if (initialCapacity < 0)
         throw new IllegalArgumentException("Illegal initial capacity: " +
                                            initialCapacity);
     if (initialCapacity > MAXIMUM_CAPACITY)
         initialCapacity = MAXIMUM_CAPACITY;
     if (loadFactor <= 0 || Float.isNaN(loadFactor))
         throw new IllegalArgumentException("Illegal load factor: " +
                                            loadFactor);

     // Find a power of 2 >= initialCapacity
     int capacity = 1;
     while (capacity < initialCapacity)
         capacity <<= 1;

     this.loadFactor = loadFactor;
     //threshold  扩容阈值 = 容量 * 加载因子
     threshold = (int)Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
     table = new Entry[capacity];
     useAltHashing = sun.misc.VM.isBooted() &&
             (capacity >= Holder.ALTERNATIVE_HASHING_THRESHOLD);
     //空实现,为了以后其他子类实现用的
     init();
 }

接下来就是put函数的调用,当我们往HashMap中存入数据时,就会执行该方法,也是重点。

	public V put(K key, V value) {
		if(table == EMPTY_TABLE) {
			//如果数组为空,则构造一个容量为16的数组
			inflateTable(threshold);
		}
        if (key == null)
        	//如果key == null,那么就会将这个键值的对象放到数组的第一个,且永远只有一个value,会被覆盖
            return putForNullKey(value);
        //对key进行hash值计算
        int hash = hash(key);
        //为的是得到一个int值,作为数组存放位置的下标
        int i = indexFor(hash, table.length);
        for (Entry<K,V> e = table[i]; e != null; e = e.next) {
            Object k;
            //如果key存在,并且相等,则替换旧的value
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }

        modCount++;
        //如果不存在就添加到数组中
        addEntry(hash, key, value, i);
        return null;
    }

如果数组中不存在该节点就会添加到数组中,

	void addEntry(int hash, K key, V value, int bucketIndex) {
		//判断容量是否够
       if ((size >= threshold) && (null != table[bucketIndex])) {
       		//如果超过了阈值,就扩容2倍
            resize(2 * table.length);
            hash = (null != key) ? hash(key) : 0;
            //重新计算hash,将对应的值存储到下标位置
            bucketIndex = indexFor(hash, table.length);
        }

        createEntry(hash, key, value, bucketIndex);
    }
	void createEntry(int hash, K key, V value, int bucketIndex) {
		//保存原先位置的entry
       	Entry<K,V> e = table[bucketIndex];
       	//将新值赋值给bucketIndex位置,同时将该节点的next节点指向之前的Entry,也就是头插法形成链表
        table[bucketIndex] = new Entry<>(hash, key, value, e);
        size++;
    }

3.HashMap中的hash计算是怎么样的,如何得到下标

	final int hash(Object k) {
	    int h = 0;
	    
	   	...
	   	
		//使hash值生成的更加均匀和随机,避免出现hash值冲突
	    h ^= k.hashCode();
	
	    // This function ensures that hashCodes that differ only by
	    // constant multiples at each bit position have a bounded
	    // number of collisions (approximately 8 at default load factor).
	    h ^= (h >>> 20) ^ (h >>> 12);
	    return h ^ (h >>> 7) ^ (h >>> 4);
	}

这里是h是key的hashcode值,length是数组的长度

	static int indexFor(int h, int length) {
		//进行与运算
        return h & (length-1);
	}

与运算规则:0&0=0;0&1=0;1&0=0;1&1=1 即:两个同时为1,结果为1,否则为0
比如
0011 0010 1101 0100
& 0000 1100 0001 0010
= 0000 0000 0001 0000

这里与运算是为了将hashcode的高位全部归零,只保留低位值,得到的结果也不会大于n - 1,用来做数组下标访问。位运算效率也高,减小cpu资源消耗。

4.HashMap每次扩容为什么是2的指数幂

上面的与运算其实就可以很好解释这个问题,本质是为了加大离散程度。如果是2的指数幂,那么二进制数中肯定有一位是1,如果n-1的话,左边高位就全部归零,右边低位就变成了1。这样进行与运算,就能得到需要的低位值了。
比如拿初始容量16来举例,16-1 = 15, 15的二进制数就变成了0000 0000 0000 1111,这个时候随便一个hash值与运算一下就能得到低位值了。
0000 0000 0000 1111
&
0100 1100 1000 1011
——————————
0000 0000 0000 1011

如果不使用2的指数幂,而是随便一个数,比如我们用14,0000 0000 0000 1110
0000 0000 0000 1110
&
0100 1100 1000 1011
——————————
0000 0000 0000 1010
那么得到的结果是后面低位的最后一位永远是0,这样造成比如0001, 0011,0101等永远也无法生成相应的数组index,会浪费空间,而且增加碰撞的几率,减慢查询效率。

5.为什么HashMap要将key hash一下再存入,而不是直接拿key存

假如不适用key的hashcode存入,直接使用key,那么如果需要索引出所需要的value,就要使用存入value所对应的key,这在实际使用中是很难达到的。

6.为什么HashMap要使用红黑树

当存储的链表长度过长时,那么查询的效率就会很低,当链表长度超过8时,链表就会转为红黑树,查询的效率就会增加。

7.HashMap为什么要用红黑树,而不用二叉树

二叉查找树在特殊情况下会变成一条线性结构(这就跟原来使用链表结构一样了,造成很深的问题),遍历查找会非常慢。

8.HashMap最大的容量是多少

因为使用计算的是int值,而int最大值是2的32次方-1,所以最大容量是2的30次方

9.为什么负载因子是0.75

HashMap是一个数据结构,数据结构需要在时间和空间上做好优化。负载因子的作用是为了在节省时间和空间两者做出最大的优化。
当负载因子为1.0时,每次只能等数组满了才扩容,这个时候会有大量hash冲突,底层的红黑树会变得复杂,查询效率也会降低。
当负载因为为0.5时,每次数组长度为一半就扩容,hash冲突虽然少了,但是底层链表长度或红黑树高度会降低,查询效率也会增加,但是空间就大了,每次一半就扩容,内存的压力就会变大。

所以说当负载因子是0.75的时候,空间利用率比较高,避免了比较多的Hash冲突,底层的链表或者是红黑树的高度比较低,空间效率相对比较高。

10.如何存储有序的HashMap

使用LInkedHashMap存储数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值