集合知识复盘总结

最新推荐文章于 2024-07-12 16:26:30 发布

代码小k

最新推荐文章于 2024-07-12 16:26:30 发布

阅读量131

点赞数

文章标签：哈希算法 java 算法

本文链接：https://blog.csdn.net/m0_62265391/article/details/125722421

版权

集合知识总结

底层框架构造图

请添加图片描述

逻辑特点

List

又分为ArrayList与LInkedList。ArrayList的底层结构是数组，数组的特点是查询快增删慢。LinkedList底层结构是链表，链表的特点是查询慢增删快。两者的具体使用要看场景需求。

Set

有HashSet，TreeSet这些实现类。Set存储元素不能重复。图解如下请添加图片描述

关于TreeSet的底层分析：

底层数据结构是红黑树（一种自平衡的二叉树，自平衡是指如果有空的左/右子树，元素会先入空的左/右子树，而不会一直往一个方方向添加元素出现不平衡现象）。
TreeSet的add(E e)方法，底层是根据实现Comparable的方式来实现的唯一性，通过compare(Object o)的返回值是否为0来判断是否为同一元素。
compare() == 0，元素不入集合。
compare() > 0 ,元素入右子树。
compare() < 0,元素入左子树。
而对其数据结构：自平衡二叉树做前（常用）、中、后序遍历即可保证TreeSet的有序性。

哈希表：

数据结构决定了数据的检索，维护的效率。数组的检索效率高，增删元素的效率低。而链表的增删元素的效率高，检索元素的效率低。而哈希表结合了他们的优点。检索与增删效率都高。哈希表的底层结构就是一个数组，数组的长度即哈希表的长度，数组中的每个空间(也叫桶)存放的是一条链表，链表中的每个节点用来存放元素。即一个数组的每个数组元素是一条链表，链表的每个节点存放元素，可以将数组的每个元素看做桶，桶里面可以有多个元素。桶里元素直接的数据结构是链表

哈希冲突：

如果两个不同的元素，通过哈希函数得出的实际存储地址相同怎么办？也就是说，当我们对某个元素进行哈希运算，得到一个存储地址，然后要进行插入的时候，发现已经被其他元素占用了，其实这就是所谓的哈希冲突，也叫哈希碰撞。哈希函数的设计至关重要，好的哈希函数会尽可能地保证计算简单和散列地址分布均匀,但是数组是一块连续的固定长度的内存空间，再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解决呢？哈希冲突的解决方案有多种:开放定址法（发生冲突，继续寻找下一块未被占用的存储地址），再散列函数法，链地址法，而HashMap即是采用了链地址法，也就是数组+链表的方式，

Map

HashMap

参考文章链接: link
实现原理：HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元，每一个Entry包含一个key-value键值对。请添加图片描述
简单来说，HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的，如果定位到的数组位置不含链表（当前entry的next指向null）,那么对于查找，添加等操作很快，仅需一次寻址即可；如果定位到的数组包含链表，对于添加操作，其时间复杂度为O(n)，首先遍历链表，存在即覆盖，否则新增；对于查找操作来讲，仍需遍历链表，然后通过key对象的equals方法逐一比对查找。所以，性能考虑，HashMap中的链表出现越少，性能才会越好。

为何HashMap的数组长度一定是2的次幂？

void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }

        Entry[] newTable = new Entry[newCapacity];
        transfer(newTable, initHashSeedAsNeeded(newCapacity));
        table = newTable;
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }

如果数组进行扩容，数组长度发生变化，而存储位置 index = h&(length-1),index也可能会发生变化，需要重新计算index，我们先来看看transfer这个方法

oid transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
　　　　　//for循环中的代码，逐个遍历链表，重新计算索引位置，将老数组数据复制到新数组中去（数组不存储实际数据，所以仅仅是拷贝引用而已）
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
　　　　　　　　　 //将当前entry的next链指向新的索引位置,newTable[i]有可能为空，有可能也是个entry链，如果是entry链，直接在链表头部插入。
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

这个方法将老数组中的数据逐个链表地遍历，扔到新的扩容后的数组中，我们的数组索引位置的计算是通过对key值的hashcode进行hash扰乱运算后，再通过和 length-1进行位运算得到最终数组索引位置。

hashMap的数组长度一定保持2的次幂，比如16的二进制表示为 10000，那么length-1就是15，二进制为01111，同理扩容后的数组长度为32，二进制表示为100000，length-1为31，二进制表示为011111。从下图可以我们也能看到这样会保证低位全为1，而扩容后只有一位差异，也就是多出了最左位的1，这样在通过 h&(length-1)的时候，只要h对应的最左边的那一个差异位为0，就能保证得到的新的数组索引和老数组索引一致(大大减少了之前已经散列良好的老数组的数据位置重新调换)

请添加图片描述
上面的&运算，高位是不会对结果产生影响的（hash函数采用各种位运算可能也是为了使得低位更加散列），我们只关注低位bit，如果低位全部为1，那么对于h低位部分来说，任何一位的变化都会对结果产生影响，也就是说，要得到index=21这个存储位置，h的低位只有这一种组合。这也是数组长度设计为必须为2的次幂的原因。
请添加图片描述
如果不是2的次幂，也就是低位不是全为1此时，要使得index=21，h的低位部分不再具有唯一性了，哈希冲突的几率会变的更大，同时，index对应的这个bit位无论如何不会等于1了，而对应的那些数组位置也就被白白浪费了。

重写equals方法需同时重写hashCode方法：

public class MyTest {
    private static class Person{
        int idCard;
        String name;

        public Person(int idCard, String name) {
            this.idCard = idCard;
            this.name = name;
        }
        @Override
        public boolean equals(Object o) {
            if (this == o) {
                return true;
            }
            if (o == null || getClass() != o.getClass()){
                return false;
            }
            Person person = (Person) o;
            //两个对象是否等值，通过idCard来确定
            return this.idCard == person.idCard;
        }

    }
    public static void main(String []args){
        HashMap<Person,String> map = new HashMap<Person, String>();
        Person person = new Person(1234,"乔峰");
        //put到hashmap中去
        map.put(person,"天龙八部");
        //get取出，从逻辑上讲应该能输出“天龙八部”
        System.out.println("结果:"+map.get(new Person(1234,"萧峰")));
    }
}

输出结果：null

如果我们已经对HashMap的原理有了一定了解，这个结果就不难理解了。尽管我们在进行get和put操作的时候，使用的key从逻辑上讲是等值的（通过equals比较是相等的），但由于没有重写hashCode方法，所以put操作时，key(hashcode1)–>hash–>indexFor–>最终索引位置，而通过key取出value的时候 key(hashcode1)–>hash–>indexFor–>最终索引位置，由于hashcode1不等于hashcode2，导致没有定位到一个数组位置而返回逻辑上错误的值null（也有可能碰巧定位到一个数组位置，但是也会判断其entry的hash值是否相等，上面get方法中有提到。）　所以，在重写equals的方法的时候，必须注意重写hashCode方法，同时还要保证通过equals判断相等的两个对象，调用hashCode方法要返回同样的整数值。而如果equals判断不相等的两个对象，其hashCode可以相同（只不过会发生哈希冲突，应尽量避免）。

具体细节

HashSet和HashMap的区别联系：

1HashMap实现的是map接口,HashSet实现的是Set接口;
2HashMap存储的是(key,value),HastSet仅仅存储一个key,其实更准确的说是存储一个(key,o),o是HashSet里的一个Object型的成员变量;
HashSet的本质是一个"没有重复元素"的集合，它是通过HashMap实现的。HashSet中含有一个"HashMap类型的成员变量"map，HashSet的操作函数，实际上都是通过map实现的。
3添加元素的时候HashMap使用的是put(key,value),HashSet使用的是add(key);

两者都不是线程安全的。
两者都不会有重复元素。什么叫重复?就是相等,至于在集合类中什么就算相等可以看看:
关于hashCode与equals
HashMap与HashTable
1HashMap是非同步的,而HashTable是同步的;
2HashMap的key与value都也有为null,而HashTable的key,value都不能为null;
4区别:前者是单列后者是双列，就是hashmap有键有值，hashset只有键；

联系：HashSet的底层就是HashMap，可以参考HashSet的类源码，默认构造方法为：

public HashSet(){

      map = new HashMap<key,Object>

   }

就是HashSet只用HashMap的键，而不用他的值，前者的值可以程序员随便指定.
区别1
底层使用的储存数据结构不同
1.Hashset底层使用的是HashMap哈希表结构储存
2.Treeset底层用的是TreeMap树结构储存。

区别2:
储存的数据保存唯一方式不用
1.Hashset是通过复写hashCode()方法和equals()方法来保证
2.Treeset是通过Compareable接口的compareto方法来保证

区别3:
1.hashset无序
2.Treeset有序

相同点：两者数据都不可重复