Java之Set与List区别、map与红黑树

最新推荐文章于 2023-09-10 11:39:34 发布

不平衡的叉叉树

最新推荐文章于 2023-09-10 11:39:34 发布

阅读量355

点赞数 1

分类专栏： java 文章标签：队列 java set arraylist linkedlist

本文链接：https://blog.csdn.net/NoviceZ/article/details/117586876

版权

java 专栏收录该内容

108 篇文章 9 订阅

订阅专栏

Set与List主要区别

1.List 是一个有序集合，可以存放重复的数据 (有序：存进是什么顺序，取出时还是什么顺序)
(1).ArrayList 底层是数组适合查询，不适合增删元素。
(2).LiskedList 底层是双向链表适合增删元素，不适合查询操作。
(3).Vector 底层和ArrayList相同，但是Vector是线程安全的，效率较低很少使用。
2.Set 是一个无序集合，不允许放重复的数据 (无序不可重复，存进和取出的顺序不一样)
(1).HashSet 底层是哈希表/散列表。
(2).TreeSet 继承sartedSet接口（无序不可重复，但存进去的元素可以按照元素的大小自动排序）。
3.Map 是一个无序集合，以键值对的方式存放数据，键对象不允许重复，值对象可以重复。
(1).HashMap实现不同步，线程不安全。 HashTable线程安全。
(2).HashMap中的key-value都是存储在Entry中的。
(3).HashMap可以存null键和null值，不保证元素的顺序恒久不变，它的底层使用的是数组和链表，通过hashCode()方法和equals方法保证键的唯一性。

List接口

ArrayList（数组实现）：允许对元素进行快速随机访问，从ArrayList的中间位置插入或者删除元素时，需要对数组进行复制、移动，代价比较高。因此，它适合随机查找和遍历，不适合插入和删除。
LinkedList（链表实现）：很适合数据的动态插入和删除，随机访问和遍历速度比较慢(遍历和访问可以使用ArrayList)。还提供了List接口中没有定义的方法，专门用于操作表头和表尾元素，可以当作堆栈、队列和双向队列使用。
Vector（数组实现）：支持线程的同步，某一时刻只有一个线程能够写Vector，避免多线程同时写而引起的不一致性，但实现同步需要很高的花费，因此，访问它比访问ArrayList慢。Vector属于线程安全级别的，但是大多数情况下不使用Vector，因为线程安全需要更大的系统开销（相关方法与ArrayList很相似，在方法上用synchronized修饰）。

Set接口

hashset : 当向HashSet结合中存入一个元素时，HashSet会调用该对象的hashCode()方法来得到该对象的hashCode值，然后根据 hashCode值来决定该对象在HashSet中存储位置（为什么HashSet 是如何保证不重复的）。也就是说，HashSet集合判断两个元素相等的标准是两个对象通过equals方法比较相等，并且两个对象的hashCode()方法返回值相等。不能保证元素的排列顺序，顺序有可能发生变化;集合元素可以是null，但只能放入一个null;
LinkedHashSet : LinkedHashSet集合同样是根据元素的hashCode值来决定元素的存储位置，但是它同时使用链表维护元素的次序。这样使得元素看起来像是以插入顺序保存的，也就是说，当遍历该集合时候，LinkedHashSet将会以元素的添加顺序访问集合的元素。LinkedHashSet在迭代访问Set中的全部元素时，性能比HashSet好，但是插入时性能稍微逊色于HashSet。
TreeSet : TreeSet是SortedSet接口的唯一实现类，底层的数据结构是红黑树，TreeSet可以确保集合元素处于排序状态。TreeSet支持两种排序方式，自然排序和定制排序，其中自然排序为默认的排序方式。

ArrayList与TreeSet的对比代码案例

package cn.tedu.test6;
import java.util.*;
public class SetVsList {
	public static void main(String[] args) {
		//TreeSet和ArrayList对比案例
		Set<Integer> set = new TreeSet<>();
		List<Integer> list = new ArrayList<>();
		set.add(1); 	list.add(1);
		set.add(2);		list.add(2);
		set.add(3);		list.add(3);
		set.add(4);		list.add(4);
		set.add(5);		list.add(5);
		System.out.println("set："+set); 	//输出set
		System.out.println("list"+list);	//输出list
		set.add(2);//不会添加重复数据
		list.add(2);//可以添加重复数据
		System.out.println("添加数据之后：");
		System.out.println("set："+set);
		System.out.println("list："+list);
		System.out.println("是否含有数据5：");
		System.out.println(set.contains(5));	//是否含有数据5
		System.out.println(list.contains(5));
		System.out.println("移除数据之后：");
		set.remove(4);	//移除数据4
		list.remove(4);	//移除下标(索引)为4的数据
		System.out.println("set："+set);
		System.out.println("list："+list);
		System.out.println("获取数据(只针对list)：");
		System.out.println("指定下标获取内容："+list.get(1)); //获取list下标为1的数据，set无get()方法
		System.out.println("指定内容获取下标："+list.indexOf(2));//获取list数据内容为2的位置
		System.out.println("set size："+set.size());		//输出set大小	
		System.out.println("list size："+list.size());	//输出list大小
		System.out.print("遍历set之后：");
		for(Integer value:set) {			//遍历set
			System.out.print(value+" ");
		}
		System.out.println();
		System.out.print("遍历list之后：");
		for(Integer value:list) {			//遍历list
			System.out.print(value+" ");
		}
	}
}

结果显示：
set：[1, 2, 3, 4, 5]
list[1, 2, 3, 4, 5]
添加数据之后：
set：[1, 2, 3, 4, 5]
list：[1, 2, 3, 4, 5, 2]
是否含有数据5：
true
true
移除数据之后：
set：[1, 2, 3, 5]
list：[1, 2, 3, 4, 2]
获取数据(只针对list)：
指定下标获取内容：2
指定内容获取下标：1
set size：4
list size：5
遍历set之后：1 2 3 5 
遍历list之后：1 2 3 4 2

补充：hashmap与红黑树

点击查看详细红黑树介绍和原理

为什么需要HashMap?

在我们写程序的时候经常会遇到数据检索等操作，对于几百个数据的小程序而言，数据的存储方式或是检索策略没有太大影响，但对于大数据，效率就会差很远。

1、线性检索：

线性检索是最为直白的方法，把所有数据都遍历一遍，然后找到你所需要的数据。其对应的数据结构就是数组，链表等线性结构，这种方式对于大数据而言效率极低，其时间复杂度为O(n)。

2、二分搜索：

二分搜索算是对线性搜索的一个改进，比如说对于[1，2，3，4，5，6，7，8]，我要搜索一个数（假设是2），我先将这个数与4（这个数一般选中位数比较好）比较，小于4则在4的左边[1，2，3]中查找，再与2比较，相等，就成功找到了，这种检索方式好处在于可以省去很多不必要的检索，每次只用查找集合中一半的元素。其时间复杂度为O(logn)。但其也有限制，数排列本身就需要是有序的。

3、Hash表中的查找：

好了，重点来了，Hash表闪亮登场，这是一种时间复杂度为O(1)的检索，就是说不管你数据有多少只需要查一次就可以找到目标数据。大家请看下图。

大家可以看到这个数组中的值就等于其下标，比如说我要存11，我就把它存在a[11]里面，这样我要找某个数字的时候就直接对应其下标就可以了。这其实是一种牺牲空间换时间的方法，这样会对内存占用比较大，但检索速度极快，只需要搜索一次就能查到目标数据。

看了上面的Hash表你肯定想问，如果我只存一个数10000，那我不是要存在a[10000]，这样其他空间不是白白浪废了吗，好吧，不存在的。Hash表已经有了其应对方法，那就是Hash函数。Hash表的本质在于可以通过value本身的特征定位到查找集合的元素下标，从而快速查找。一般的Hash函数为：要存入的数 mod（求余） Hash数组长度。比如说对于上面那个长度为9的数组，12的位置为12 mod 9=3，即存在a3，通过这种方式就可以安放比较大的数据了。

4、Hash冲突解决策略

看了上面的讲解，有出现了一个问题，通过求余数得到的地址可能是一样的。这种我们称为Hash冲突，如果数据量比较大而Hash桶比较小，这种冲突就很严重。我们采取如下方式解决冲突问题。

我们可以看到value值为7和29的元素冲突了，然后我们把该数组的每一个元素变成了一个链表头，冲突的元素放在了链表中，这样在找到对应的链表头之后会顺着链表找下去，至于为什么采用链表，是为了节省空间，链表在内存中并不是连续存储，所以我们可以更充分地使用内存。

上面讲了那么多，那跟我们今天的主题HashMap有什么关系呢？进入正题。我们知道HashMap中的值都是key，value，这里的存储与上面的很像，key会被映射成数据所在的地址，而value就在以这个地址为头的链表中，这种数据结构在获取的时候就很快。

但是又出现了一个问题：如果hash桶较小，数据量较大，就会导致链表非常的长。所以就出现了红黑树。

红黑树

在JDK1.6，JDK1.7中，HashMap采用位桶+链表实现，即使用链表处理冲突，同一hash值的链表都存储在一个链表里。但是当位于一个桶中的元素较多，即hash值相等的元素较多时，通过key值依次查找的效率较低。而JDK1.8中，HashMap采用位桶+链表+红黑树实现，当链表长度超过阈值（8）时，将链表转换为红黑树，这样大大减少了查找时间。在jdk1.8版本后，java对HashMap做了改进，在链表长度大于8的时候，将后面的数据存在红黑树中，以加快检索速度。

JDK1.8HashMap的红黑树是这样解决的：

如果某个桶中的记录过大的话（当前是TREEIFY_THRESHOLD = 8），HashMap会动态的使用一个专门的treemap实现来替换掉它。这样做的结果会更好，是O(logn)，而不是糟糕的O(n)。

它是如何工作的？前面产生冲突的那些KEY对应的记录只是简单的追加到一个链表后面，这些记录只能通过遍历来进行查找。但是超过这个阈值后HashMap开始将列表升级成一个二叉树，使用哈希值作为树的分支变量，如果两个哈希值不等，但指向同一个桶的话，较大的那个会插入到右子树里。如果哈希值相等，HashMap希望key值最好是实现了Comparable接口的，这样它可以按照顺序来进行插入。这对HashMap的key来说并不是必须的，不过如果实现了当然最好。如果没有实现这个接口，在出现严重的哈希碰撞的时候，你就并别指望能获得性能提升了。

实现原理

HashMap可以看成是一个大的数组，然后每个数组元素的类型是Node类。当添加一个元素（key-value）时，就首先计算元素key的hash值，以此确定插入数组中的位置，但是可能存在同一hash值的元素已经被放在数组同一位置了，这时就添加到同一hash值的元素的后面，他们在数组的同一位置，但是形成了链表，同一各链表上的Hash值是相同的，所以说数组存放的是链表。而当链表长度太长时，链表就转换为红黑树，这样大大提高了查找的效率。

当链表数组的容量超过初始容量的0.75时，再散列将链表数组扩大2倍，把原链表数组的搬移到新的数组中。