HashSet 源码解析

Set的出现,是为了维持一种元素唯一的集合。HashSet ,是在HashMap的基础之上保持这一特性,并且拥有自身的特点(如果对于HashMap忘了,或者不了解,可以先了解HashMap , 否则,是无法准确地了解HashSet的原理。所以此篇文章是基于了解一些HashMap特性的)

HashSet的特点
在文章的开始,先来说说一些HashSet的特点。
1、遍历耗时与(当前容量 + 总容量)成正比,所以加载因子不宜太低(加载因子简单来说是 “当前容量 / 总容量”的最大值,也就是容器能有多满。如果需要深入了解,可以参考HashMap) , 总容量不宜太大(太大容易造成需要访问许多空位子)

这里写图片描述
比如有可能想上面这样落位

2、不保证所处位置一只不变(这是当然的,借助HashMap占位,当需要扩容时,各个元素要重新占位)

3、不保证同步,即线程不安全。解决办法如同步代码块或者Set s = Collections.synchronizedSet(new HashSet(…))等

4、支持null

初始化

看初始化前,先要知道两个重要的成员变量,如下

//实际装载元素的容器
private transient HashMap<E,Object> map;

//傀儡元素,用于占位,后面会有解释
private static final Object PRESENT = new Object();

注意到一个细节,map的Key为范型,Value为Object,这里可以猜测可能会与如何存储有关。

看几个构造函数

 public HashSet() {
        map = new HashMap<>();
    }
 public HashSet(Collection<? extends E> c) {
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c);
    }
 public HashSet(int initialCapacity, float loadFactor) {
        map = new HashMap<>(initialCapacity, loadFactor);
    }
 public HashSet(int initialCapacity) {
        map = new HashMap<>(initialCapacity);
    }

构造函数实际上实行工作的事HashMap,不多做解释

此外注意到有一个特别的构造函数

HashSet(int initialCapacity, float loadFactor, boolean dummy) {
        map = new LinkedHashMap<>(initialCapacity, loadFactor);
    }

这里依赖的是LinkedHashMap而不是HashMap,LinkedHashMap的特点是每一个Entry持有头尾指针,指向另一个Entry,典型的双向链表。我觉得使用这一种构造是为了提高遍历速度,因为避免了遍历空的位置

常用操作

public int size() {
        return map.size();
    }
public boolean isEmpty() {
        return map.isEmpty();
    }
public boolean contains(Object o) {
        return map.containsKey(o);
    }
public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }
public boolean remove(Object o) {
        return map.remove(o)==PRESENT;
    }
public void clear() {
        map.clear();
    }

可以看到,实际上在做操作的是HashMap,因此不了解HashMap就直接来学HashSet,会本末倒置噢。

维护唯一性
到了这里,还有一个问题,就是HashSet怎么保证元素唯一呢?还记得前面提到的一个傀儡变量PRESENT吗(在初始化小节里),是利用PRESENT和HashMap的特性来维护唯一性的。

此话怎讲?
回看这add()

public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

从这里追踪,会走到HashMap的putVal,源码如下

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //获得新元素在数组上的位置,此位置没有被占用直接放入
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        //获得新元素在数组上的位置,此位置被占用,放入此位置上的链表
        else {
            Node<K,V> e; K k;
            //hash值相同并且key值相同,说明已经存在此次put为更新操作,更新key对应的value
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            //没有找到相同的key,说明不存在,为插入操作,加入到队列尾部
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

由上面HashMap的源码知道,HashSet在加入新元素时,HashMap先进行定位找到元素在数组上的位置,如果这个位置上什么也没有,直接加入;如果有,则加入这个位置上的链表里,如果链表里不巧也有这个元素对应的key,也不会对唯一性造成影响,因为在HashMap的putVal规则中,如果存在key的元素,那么更新此key的value值,而HashSet的每一个元素的value都是那个傀儡元素PRESENT,所以实际上,key对应的值并没有改变,所以保证了唯一性。

实际上也就是说,HashSet,使用了HashMap的每一个元素的Key,来存储自己想要存储的东西。

使用场景
符合如下条件的场景可以考虑使用HashSet
1、保证元素唯一性(不保证唯一还是Set吗0,-)
2、快速存取(毕竟散列表定位)
3、对存储顺序无要求

文章到这里就结束了,其中当然有不够完善的地方,来日有更好的见解会及时更新,如果有错误的地方,欢迎敲敲门 =。=

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值