Java Set的源码分析

杀神lwz

已于 2023-02-12 21:44:27 修改

阅读量309

点赞数 3

文章标签： java 散列表哈希算法

于 2022-03-13 12:19:43 首次发布

本文链接：https://blog.csdn.net/weixin_42472027/article/details/123456005

版权

本文详细剖析了Set接口的原理，特别是HashSet、LinkedHashSet和TreeSet的源码实现，包括它们的特性、添加元素过程和底层数据结构。重点讲解了重写equals和hashCode的重要性，并对比了三种Set在遍历和排序上的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

1. Set接口的框架：
  Collection接口：单列集合，用来存储一个一个的对象
    Set接口：存储无序的、不可重复的数据   -->高中讲的“集合”
      HashSet：作为Set接口的主要实现类；线程不安全的；可以存储null值
        LinkedHashSet：作为HashSet的子类；遍历其内部数据时，可以按照添加的顺序遍历
                     对于频繁的遍历操作，LinkedHashSet效率高于HashSet.
      TreeSet：可以按照添加对象的指定属性，进行排序。

Set：存储无序的、不可重复的数据
以HashSet为例说明：
1. 无序性:不等于随机性。存储的数据在底层数组中并非按照数组索引的顺序添加，而是根据
数据的哈希值决定的。
2. 不可重复性:保证添加的元素按照equals()判断时,不能返回true.即:相同的元素只能添加一个。

    HashSet 集合判断两个元素相等的标准：两个对象通过 hashCode() 方法比较相
等，并且两个对象的 equals() 方法返回值也相等。
    对于存放在Set容器中的对象，对应的类一定要重写equals()和hashCode(Object
obj)方法，以实现对象相等规则。即：“相等的对象必须具有相等的散列码”。

二、HashSet的源码分析

    private transient HashMap<E,Object> map;

    public HashSet() {
        map = new HashMap<>();
    }

    public int size() {
        return map.size();
    }

    public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

    /**
     * Implements Map.put and related methods.
     *
     * @param hash hash for key
     * @param key the key
     * @param value the value to put
     * @param onlyIfAbsent if true, don't change existing value
     * @param evict if false, the table is in creation mode.
     * @return previous value, or null if none
     */
    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

    Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
        return new Node<>(hash, key, value, next);
    }

说明：

1、添加元素的过程：以HashSet为例：
  我们向HashSet中添加元素a,首先调用元素a所在类的hashCode()方法，计算元素a的哈希值，
此哈希值接着通过某种算法计算出在HashSet底层数组中的存放位置（即为：索引位置），判断
数组此位置上是否已经有元素：
  如果此位置上没有其他元素，则元素a添加成功。 --->情况1
  如果此位置上有其他元素b(或以链表形式存在的多个元素），则比较元素a与元素b的hash值：
  如果hash值不相同，则元素a添加成功。--->情况2
  如果hash值相同，进而需要调用元素a所在类的equals()方法：
     equals()返回true,元素a添加失败
     equals()返回false,则元素a添加成功。--->情况2

  对于添加成功的情况2和情况3而言：元素a 与已经存在指定索引位置上数据以链表的方式存储。

  jdk 7 :元素a放到数组中，指向原来的元素。
  jdk 8 :原来的元素在数组中，指向元素a
  总结：七上八下

  HashSet底层：数组+链表的结构。
  底层也是数组，初始容量为16，当如果使用率超过0.75，（16*0.75=12）
就会扩大容量为原来的2倍。（16扩容为32，依次为64,128....等）

因set底层HashMap，具体看HashMap源码分析。

重写 hashCode() 方法的基本原则

  1.在程序运行时,同一个对象多次调用hashCode()方法应该返回相同的值。 
  2.当两个对象的equals()方法比较返回true时,这两个对象的hashCode()方法的返回值也应相等。
  3.对象中用作equals()方法比较的Field，都应该用来计算 hashCode 值。

重写 equals() 方法的基本原则

  1.当一个类有自己特有的“逻辑相等”概念,当改写equals()的时候，总是要改写hashCode()，
根据一个类的equals方法（改写后），两个截然不同的实例有可能在逻辑上是相等的，但是，
根据Object.hashCode()方法，它们仅仅是两个对象。
  2.因此，违反了“相等的对象必须具有相等的散列码”。
  3.结论：复写equals方法的时候一般都需要同时复写hashCode方法。通常参与计算hashCode的
对象的属性也应该参与到equals()中进行计算。

Eclipse/IDEA工具里hashCode()的重写

为什么用Eclipse/IDEA复写hashCode方法，有31这个数字？

  1.选择系数的时候要选择尽量大的系数。因为如果计算出来的hash地址越大，所谓的“冲突”就越
少，查找起来效率也会提高。（减少冲突）
  2.并且31只占用5bits,相乘造成数据溢出的概率较小。
  3.31可以 由i*31== (i<<5)-1来表示,现在很多虚拟机里面都有做相关优化。（提高算法效率）
  4.31是一个素数，素数作用就是如果我用一个数字来乘以这个素数，那么最终出来的结果只能被
素数本身和被乘数还有1来整除！(减少冲突)

三、LinkedHashSet的源码分析

public class LinkedHashSet<E> extends HashSet<E> ...
...
    public LinkedHashSet() {
        super(16, .75f, true);
    }

//LinkedHashSet作为HashSet的子类，在添加数据的同时，每个数据还维护了两个引用，
记录此数据前一个数据和后一个数据。
//LinkedHashSet 根据元素的 hashCode 值来决定元素的存储位置，但它同时使用双向链表
维护元素的次序，这使得元素看起来是以插入顺序保存的。
//LinkedHashSet插入性能略低于 HashSet，但在迭代访问 Set 里的全部元素时有很好的性能。
//优点：对于频繁的遍历操作，LinkedHashSet效率高于HashSet
//LinkedHashSet 不允许集合元素重复。

四、TreeSet的源码分析

public class TreeSet<E> extends AbstractSet<E>
    implements NavigableSet<E>, Cloneable, java.io.Serializable
{

    private transient NavigableMap<E,Object> m;

    public TreeSet() {
        this(new TreeMap<E,Object>());
    }

    TreeSet(NavigableMap<E,Object> m) {
        this.m = m;
    }

    public boolean add(E e) {
        return m.put(e, PRESENT)==null;
    }

--------------------------------------------
public interface NavigableMap<K,V> extends SortedMap<K,V> {

说明：

TreeSet 是 SortedSet 接口的实现类，TreeSet 可以确保集合元素处于排序状态。

TreeSet底层使用红黑树结构存储数据

TreeSet 两种排序方法：自然排序和定制排序。默认情况下，TreeSet 采用自然排序。
  两种排序方式：自然排序（实现Comparable接口）和 定制排序（Comparator）.
    自然排序中，比较两个对象是否相同的标准为：compareTo()返回0.不再是equals().
    定制排序中，比较两个对象是否相同的标准为：compare()返回0.不再是equals().

新增的方法如下： (了解)
  Comparator comparator()
  Object first()
  Object last()
  Object lower(Object e)
  Object higher(Object e)
  SortedSet subSet(fromElement, toElement)
  SortedSet headSet(toElement)
  SortedSet tailSet(fromElement)

例：

//向TreeSet中添加的数据，要求是相同类的对象。
    @Test
    public void test1(){
        TreeSet set = new TreeSet();

        //失败：不能添加不同类的对象
        set.add(123);
        set.add(456);
        set.add("AA");
        set.add(new User("Tom",12));
    }

结果:
java.lang.ClassCastException: java.lang.Integer cannot be cast to java.lang.String

排序举例：

    @Test
    public void test(){
        Comparator com = new Comparator() {
            //按照年龄从小到大排列
            @Override
            public int compare(Object o1, Object o2) {
                if(o1 instanceof User && o2 instanceof User){
                    User u1 = (User)o1;
                    User u2 = (User)o2;
                    return Integer.compare(u1.getAge(),u2.getAge());
                }else{
                    throw new RuntimeException("输入的数据类型不匹配");
                }
            }
        };

        TreeSet set = new TreeSet(com);  //com:就是定制排序使用
        set.add(new User("Tom",12));
        set.add(new User("Jerry",32));
        set.add(new User("Jim",2));
        set.add(new User("Mike",65));
        set.add(new User("Mary",33));
        set.add(new User("Jack",33));
        set.add(new User("Jack",56));

        Iterator iterator = set.iterator();
        while(iterator.hasNext()){
            System.out.println(iterator.next());
        }
    }

public class User implements Comparable{
    private String name;
    private int age;

    public User() {
    }

    public User(String name, int age) {
        this.name = name;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }

    @Override
    public String toString() {
        return "User{" +
                "name='" + name + '\'' +
                ", age=" + age +
                '}';
    }

    @Override
    public boolean equals(Object o) {
        System.out.println("User equals()....");
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;

        User user = (User) o;

        if (age != user.age) return false;
        return name != null ? name.equals(user.name) : user.name == null;
    }

    @Override
    public int hashCode() { //return name.hashCode() + age;
        int result = name != null ? name.hashCode() : 0;
        result = 31 * result + age;
        return result;
    }

    //按照姓名从大到小排列,年龄从小到大排列
    //自然排序方式
    @Override
    public int compareTo(Object o) {
        if(o instanceof User){
            User user = (User)o;
//            return -this.name.compareTo(user.name);
            int compare = -this.name.compareTo(user.name);
            if(compare != 0){
                return compare;
            }else{
                return Integer.compare(this.age,user.age);
            }
        }else{
            throw new RuntimeException("输入的类型不匹配");
        }
    }
}

排序—自然排序

1.自然排序：TreeSet 会调用集合元素的 compareTo(Object obj) 方法来比较元素之间的大小关系，
然后将集合元素按升序(默认情况)排列
2.如果试图把一个对象添加到 TreeSet 时，则该对象的类必须实现 Comparable接口。
    实现 Comparable 的类必须实现 compareTo(Object obj) 方法，两个对象即通过
compareTo(Object obj) 方法的返回值来比较大小。
3.Comparable 的典型实现：
    BigDecimal、BigInteger 以及所有的数值型对应的包装类：按它们对应的数值大小进行比较
    Character：按字符的 unicode值来进行比较
    Boolean：true 对应的包装类实例大于 false 对应的包装类实例
    String：按字符串中字符的 unicode 值进行比较
    Date、Time：后边的时间、日期比前面的时间、日期大
4.向 TreeSet 中添加元素时，只有第一个元素无须比较compareTo()方法，后面添加的所有元素都会
调用compareTo()方法进行比较。
5.因为只有相同类的两个实例才会比较大小，所以向 TreeSet 中添加的应该是同一个类的对象。
6.对于 TreeSet 集合而言，它判断两个对象是否相等的唯一标准是：两个对象通过 
compareTo(Object obj) 方法比较返回值。
7.当需要把一个对象放入 TreeSet 中，重写该对象对应的 equals() 方法时，应保证该方法与
compareTo(Object obj) 方法有一致的结果：如果两个对象通过equals() 方法比较返回 true，
则通过 compareTo(Object obj) 方法比较应返回 0。否则，让人难以理解。

排序—定制排序

1.TreeSet的自然排序要求元素所属的类实现Comparable接口，如果元素所属的类没有实现
Comparable接口，或不希望按照升序(默认情况)的方式排列元素或希望按照其它属性大小进
行排序，则考虑使用定制排序。定制排序，通过Comparator接口来实现。需要重写
compare(T o1,T o2)方法。
2.利用int compare(T o1,T o2)方法，比较o1和o2的大小：如果方法返回正整数，则表示
o1大于o2；如果返回0，表示相等；返回负整数，表示o1小于o2。
3.要实现定制排序，需要将实现Comparator接口的实例作为形参传递给TreeSet的构造器。
4.此时，仍然只能向TreeSet中添加类型相同的对象。否则发生ClassCastException异常。
5.使用定制排序判断两个元素相等的标准是：通过Comparator比较两个元素返回了0。

Java Map的源码分析

Java List的源码分析