HashSet 源码解析

最新推荐文章于 2021-12-28 16:56:18 发布

蝴蝶xioc

最新推荐文章于 2021-12-28 16:56:18 发布

阅读量443

点赞数 1

分类专栏：数据结构 android知识

本文链接：https://blog.csdn.net/qq_31500181/article/details/78998923

版权

android知识同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

数据结构

4 篇文章 0 订阅

订阅专栏

Set的出现，是为了维持一种元素唯一的集合。HashSet ，是在HashMap的基础之上保持这一特性，并且拥有自身的特点（如果对于HashMap忘了，或者不了解，可以先了解HashMap , 否则，是无法准确地了解HashSet的原理。所以此篇文章是基于了解一些HashMap特性的）

HashSet的特点
在文章的开始，先来说说一些HashSet的特点。
1、遍历耗时与（当前容量 + 总容量）成正比，所以加载因子不宜太低（加载因子简单来说是 “当前容量 / 总容量”的最大值，也就是容器能有多满。如果需要深入了解，可以参考HashMap） , 总容量不宜太大（太大容易造成需要访问许多空位子）

这里写图片描述
比如有可能想上面这样落位

2、不保证所处位置一只不变（这是当然的，借助HashMap占位，当需要扩容时，各个元素要重新占位）

3、不保证同步，即线程不安全。解决办法如同步代码块或者Set s = Collections.synchronizedSet(new HashSet(…))等

4、支持null

初始化

看初始化前，先要知道两个重要的成员变量，如下

//实际装载元素的容器
private transient HashMap<E,Object> map;

//傀儡元素，用于占位，后面会有解释
private static final Object PRESENT = new Object();

注意到一个细节，map的Key为范型，Value为Object，这里可以猜测可能会与如何存储有关。

看几个构造函数

 public HashSet() {
        map = new HashMap<>();
    }
 public HashSet(Collection<? extends E> c) {
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c);
    }
 public HashSet(int initialCapacity, float loadFactor) {
        map = new HashMap<>(initialCapacity, loadFactor);
    }
 public HashSet(int initialCapacity) {
        map = new HashMap<>(initialCapacity);
    }

构造函数实际上实行工作的事HashMap，不多做解释

此外注意到有一个特别的构造函数

HashSet(int initialCapacity, float loadFactor, boolean dummy) {
        map = new LinkedHashMap<>(initialCapacity, loadFactor);
    }

这里依赖的是LinkedHashMap而不是HashMap，LinkedHashMap的特点是每一个Entry持有头尾指针，指向另一个Entry，典型的双向链表。我觉得使用这一种构造是为了提高遍历速度，因为避免了遍历空的位置

常用操作

public int size() {
        return map.size();
    }
public boolean isEmpty() {
        return map.isEmpty();
    }
public boolean contains(Object o) {
        return map.containsKey(o);
    }
public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }
public boolean remove(Object o) {
        return map.remove(o)==PRESENT;
    }
public void clear() {
        map.clear();
    }

可以看到，实际上在做操作的是HashMap，因此不了解HashMap就直接来学HashSet，会本末倒置噢。

维护唯一性
到了这里，还有一个问题，就是HashSet怎么保证元素唯一呢？还记得前面提到的一个傀儡变量PRESENT吗（在初始化小节里），是利用PRESENT和HashMap的特性来维护唯一性的。

此话怎讲？
回看这add()

public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

从这里追踪，会走到HashMap的putVal，源码如下

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //获得新元素在数组上的位置，此位置没有被占用直接放入
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        //获得新元素在数组上的位置，此位置被占用，放入此位置上的链表
        else {
            Node<K,V> e; K k;
            //hash值相同并且key值相同，说明已经存在此次put为更新操作，更新key对应的value
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            //没有找到相同的key，说明不存在，为插入操作，加入到队列尾部
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

由上面HashMap的源码知道，HashSet在加入新元素时，HashMap先进行定位找到元素在数组上的位置，如果这个位置上什么也没有，直接加入；如果有，则加入这个位置上的链表里，如果链表里不巧也有这个元素对应的key，也不会对唯一性造成影响，因为在HashMap的putVal规则中，如果存在key的元素，那么更新此key的value值，而HashSet的每一个元素的value都是那个傀儡元素PRESENT，所以实际上，key对应的值并没有改变，所以保证了唯一性。

实际上也就是说，HashSet，使用了HashMap的每一个元素的Key，来存储自己想要存储的东西。

使用场景
符合如下条件的场景可以考虑使用HashSet
1、保证元素唯一性（不保证唯一还是Set吗0，-）
2、快速存取（毕竟散列表定位）
3、对存储顺序无要求

文章到这里就结束了，其中当然有不够完善的地方，来日有更好的见解会及时更新，如果有错误的地方，欢迎敲敲门 =。=