Java之Set与List区别、map与红黑树

Set与List主要区别

1.List 是一个有序集合,可以存放重复的数据 (有序:存进是什么顺序,取出时还是什么顺序)
(1).ArrayList 底层是数组适合查询,不适合增删元素。
(2).LiskedList 底层是双向链表适合增删元素,不适合查询操作。
(3).Vector 底层和ArrayList相同,但是Vector是线程安全的,效率较低很少使用。
2.Set 是一个无序集合,不允许放重复的数据 (无序不可重复,存进和取出的顺序不一样)
(1).HashSet 底层是哈希表/散列表。
(2).TreeSet 继承sartedSet接口(无序不可重复,但存进去的元素可以按照元素的大小自动排序)。
3.Map 是一个无序集合,以键值对的方式存放数据,键对象不允许重复,值对象可以重复。
(1).HashMap实现不同步,线程不安全。 HashTable线程安全。
(2).HashMap中的key-value都是存储在Entry中的。
(3).HashMap可以存null键和null值,不保证元素的顺序恒久不变,它的底层使用的是数组和链表,通过hashCode()方法和equals方法保证键的唯一性。
 

List接口

  1. ArrayList(数组实现):允许对元素进行快速随机访问,从ArrayList的中间位置插入或者删除元素时,需要对数组进行复制、移动,代价比较高。因此,它适合随机查找和遍历,不适合插入和删除。
  2. LinkedList(链表实现):很适合数据的动态插入和删除,随机访问和遍历速度比较慢(遍历和访问可以使用ArrayList)。还提供了List接口中没有定义的方法,专门用于操作表头和表尾元素,可以当作堆栈、队列和双向队列使用。
  3. Vector(数组实现):支持线程的同步,某一时刻只有一个线程能够写Vector,避免多线程同时写而引起的不一致性,但实现同步需要很高的花费,因此,访问它比访问ArrayList慢。Vector属于线程安全级别的,但是大多数情况下不使用Vector,因为线程安全需要更大的系统开销(相关方法与ArrayList很相似,在方法上用synchronized修饰)。

Set接口

  1. hashset : 当向HashSet结合中存入一个元素时,HashSet会调用该对象的hashCode()方法来得到该对象的hashCode值,然后根据 hashCode值来决定该对象在HashSet中存储位置(为什么HashSet 是如何保证不重复的)。也就是说,HashSet集合判断两个元素相等的标准是两个对象通过equals方法比较相等,并且两个对象的hashCode()方法返回值相等。不能保证元素的排列顺序,顺序有可能发生变化;集合元素可以是null,但只能放入一个null;
  2. LinkedHashSet : LinkedHashSet集合同样是根据元素的hashCode值来决定元素的存储位置,但是它同时使用链表维护元素的次序。这样使得元素看起来像是以插入顺序保存的,也就是说,当遍历该集合时候,LinkedHashSet将会以元素的添加顺序访问集合的元素。LinkedHashSet在迭代访问Set中的全部元素时,性能比HashSet好,但是插入时性能稍微逊色于HashSet。
  3. ​TreeSet : TreeSet是SortedSet接口的唯一实现类,底层的数据结构是红黑树,TreeSet可以确保集合元素处于排序状态。TreeSet支持两种排序方式,自然排序和定制排序,其中自然排序为默认的排序方式。

ArrayList与TreeSet的对比代码案例

package cn.tedu.test6;
import java.util.*;
public class SetVsList {
	public static void main(String[] args) {
		//TreeSet和ArrayList对比案例
		Set<Integer> set = new TreeSet<>();
		List<Integer> list = new ArrayList<>();
		set.add(1); 	list.add(1);
		set.add(2);		list.add(2);
		set.add(3);		list.add(3);
		set.add(4);		list.add(4);
		set.add(5);		list.add(5);
		System.out.println("set:"+set); 	//输出set
		System.out.println("list"+list);	//输出list
		set.add(2);//不会添加重复数据
		list.add(2);//可以添加重复数据
		System.out.println("添加数据之后:");
		System.out.println("set:"+set);
		System.out.println("list:"+list);
		System.out.println("是否含有数据5:");
		System.out.println(set.contains(5));	//是否含有数据5
		System.out.println(list.contains(5));
		System.out.println("移除数据之后:");
		set.remove(4);	//移除数据4
		list.remove(4);	//移除下标(索引)为4的数据
		System.out.println("set:"+set);
		System.out.println("list:"+list);
		System.out.println("获取数据(只针对list):");
		System.out.println("指定下标获取内容:"+list.get(1)); //获取list下标为1的数据,set无get()方法
		System.out.println("指定内容获取下标:"+list.indexOf(2));//获取list数据内容为2的位置
		System.out.println("set size:"+set.size());		//输出set大小	
		System.out.println("list size:"+list.size());	//输出list大小
		System.out.print("遍历set之后:");
		for(Integer value:set) {			//遍历set
			System.out.print(value+" ");
		}
		System.out.println();
		System.out.print("遍历list之后:");
		for(Integer value:list) {			//遍历list
			System.out.print(value+" ");
		}
	}
}

结果显示:
set:[1, 2, 3, 4, 5]
list[1, 2, 3, 4, 5]
添加数据之后:
set:[1, 2, 3, 4, 5]
list:[1, 2, 3, 4, 5, 2]
是否含有数据5:
true
true
移除数据之后:
set:[1, 2, 3, 5]
list:[1, 2, 3, 4, 2]
获取数据(只针对list):
指定下标获取内容:2
指定内容获取下标:1
set size:4
list size:5
遍历set之后:1 2 3 5 
遍历list之后:1 2 3 4 2 

 

 补充:hashmap与红黑树

点击查看详细红黑树介绍和原理

为什么需要HashMap?

在我们写程序的时候经常会遇到数据检索等操作,对于几百个数据的小程序而言,数据的存储方式或是检索策略没有太大影响,但对于大数据,效率就会差很远。

1、线性检索:

线性检索是最为直白的方法,把所有数据都遍历一遍,然后找到你所需要的数据。其对应的数据结构就是数组,链表等线性结构,这种方式对于大数据而言效率极低,其时间复杂度为O(n)。

2、二分搜索:

二分搜索算是对线性搜索的一个改进,比如说对于[1,2,3,4,5,6,7,8],我要搜索一个数(假设是2),我先将这个数与4(这个数一般选中位数比较好)比较,小于4则在4的左边[1,2,3]中查找,再与2比较,相等,就成功找到了,这种检索方式好处在于可以省去很多不必要的检索,每次只用查找集合中一半的元素。其时间复杂度为O(logn)。但其也有限制,数排列本身就需要是有序的。

3、Hash表中的查找:

好了,重点来了,Hash表闪亮登场,这是一种时间复杂度为O(1)的检索,就是说不管你数据有多少只需要查一次就可以找到目标数据。大家请看下图。

 大家可以看到这个数组中的值就等于其下标,比如说我要存11,我就把它存在a[11]里面,这样我要找某个数字的时候就直接对应其下标就可以了。这其实是一种牺牲空间换时间的方法,这样会对内存占用比较大,但检索速度极快,只需要搜索一次就能查到目标数据。

      看了上面的Hash表你肯定想问,如果我只存一个数10000,那我不是要存在a[10000],这样其他空间不是白白浪废了吗,好吧,不存在的。Hash表已经有了其应对方法,那就是Hash函数。Hash表的本质在于可以通过value本身的特征定位到查找集合的元素下标,从而快速查找。一般的Hash函数为:要存入的数 mod(求余) Hash数组长度。比如说对于上面那个长度为9的数组,12的位置为12 mod 9=3,即存在a3,通过这种方式就可以安放比较大的数据了。

4、Hash冲突解决策略

看了上面的讲解,有出现了一个问题,通过求余数得到的地址可能是一样的。这种我们称为Hash冲突,如果数据量比较大而Hash桶比较小,这种冲突就很严重。我们采取如下方式解决冲突问题。

  我们可以看到value值为7和29的元素冲突了,然后我们把该数组的每一个元素变成了一个链表头,冲突的元素放在了链表中,这样在找到对应的链表头之后会顺着链表找下去,至于为什么采用链表,是为了节省空间,链表在内存中并不是连续存储,所以我们可以更充分地使用内存。

     上面讲了那么多,那跟我们今天的主题HashMap有什么关系呢?进入正题。我们知道HashMap中的值都是key,value,这里的存储与上面的很像,key会被映射成数据所在的地址,而value就在以这个地址为头的链表中,这种数据结构在获取的时候就很快。

     但是又出现了一个问题:如果hash桶较小,数据量较大,就会导致链表非常的长。所以就出现了红黑树。

红黑树

在JDK1.6,JDK1.7中,HashMap采用位桶+链表实现,即使用链表处理冲突,同一hash值的链表都存储在一个链表里。但是当位于一个桶中的元素较多,即hash值相等的元素较多时,通过key值依次查找的效率较低。而JDK1.8中,HashMap采用位桶+链表+红黑树实现,当链表长度超过阈值(8)时,将链表转换为红黑树,这样大大减少了查找时间。在jdk1.8版本后,java对HashMap做了改进,在链表长度大于8的时候,将后面的数据存在红黑树中,以加快检索速度。

JDK1.8HashMap的红黑树是这样解决的:

         如果某个桶中的记录过大的话(当前是TREEIFY_THRESHOLD = 8),HashMap会动态的使用一个专门的treemap实现来替换掉它。这样做的结果会更好,是O(logn),而不是糟糕的O(n)。

        它是如何工作的?前面产生冲突的那些KEY对应的记录只是简单的追加到一个链表后面,这些记录只能通过遍历来进行查找。但是超过这个阈值后HashMap开始将列表升级成一个二叉树,使用哈希值作为树的分支变量,如果两个哈希值不等,但指向同一个桶的话,较大的那个会插入到右子树里。如果哈希值相等,HashMap希望key值最好是实现了Comparable接口的,这样它可以按照顺序来进行插入。这对HashMap的key来说并不是必须的,不过如果实现了当然最好。如果没有实现这个接口,在出现严重的哈希碰撞的时候,你就并别指望能获得性能提升了。

实现原理

HashMap可以看成是一个大的数组,然后每个数组元素的类型是Node类。当添加一个元素(key-value)时,就首先计算元素key的hash值,以此确定插入数组中的位置,但是可能存在同一hash值的元素已经被放在数组同一位置了,这时就添加到同一hash值的元素的后面,他们在数组的同一位置,但是形成了链表,同一各链表上的Hash值是相同的,所以说数组存放的是链表。而当链表长度太长时,链表就转换为红黑树,这样大大提高了查找的效率。

     当链表数组的容量超过初始容量的0.75时,再散列将链表数组扩大2倍,把原链表数组的搬移到新的数组中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值