概述
集合用于存放数据,不同的集合使用不同的数据结构,根据数据结构的不同,集合类表现出不同的特性和效率,如查询效率、插入效率等。
本文将介绍如下常用的集合类:ArrayList、LinkedList、ArrayDeque、HashSet、TreeSet、PriorityQueue。
List和Set类型的集合实现了Collection接口,而 Map类型 的则实现了Map接口。
具体集合
集合类可以存储任意数据类型,但不能存储基本数据类型,其原因跟泛型擦除有关,因此我们对于基本数据类型可以使用包装类,如Integer。
ArrayList
这其实就是一个数组,但相比普通的数组,拥有了动态的空间大小,并且可以运用集合类中提供的各种有用的方法。
LinkedList
本质上是用链表数据结构实现的,因此该集合有序,而java中的Linked链表都是使用双向链表实现的,从链表中删除和添加元素是很容易的事情,因为不用考虑扩容以及数据迁移的过程。
如果你想增加一个元素,你只需要在适当的位置插入这个内存块即可,所需要做的只是调整一下指针的指向;而相比ArrayList,如果要在中间添加或者删除元素,则要移动它后面的所有元素,同时在数组扩容的过程中,还要对所有数据进行迁移,这个效率就相当低下。
但链表也有它的缺陷,它前面的插入删除优势,导致了它的随机读写效率比较低,因为必须要逐个迭代才能找到目标元素,而不能像数组一样根据下标直接定位目标元素。
HashSet
这是一个散列集合,该集合是无序的,它会根据hashCode方法得到一个散列表,你可以理解为有这么一个函数,f(x)=……,这个f(x)根据x得到的值就是hash码,每个hash码就是一个房间(桶),数据元素存储在这个房间(桶)里,你可以把这些房间理解为一个数组。
也正是因为这个特性,HashSet用于检测元素的存在性(contains方法)非常快速,因为HashSet可以根据对象的hashCode码直接得到这个对象应该所在的内存位置。
处理hash冲突的方法主要有两种:1.开放寻执法,指的是遇到哈希冲突之后就将本次计算的hash码再计算一次hash码,得到不同的位置进行存放;2.链地址法,指的是遇到hash冲突后,就使用链表的方式链接到原来元素的后面。
对于HashSet而言,是使用的链地址法,从java8开始,当链表到一定长度后,将会转换成红黑树存储,但需要注意的是,hash冲突肯定是越少越好。
在我们创建HashSet的时候,可以指定桶的大小,以及装填因子。桶的大小就是房间的数量,而装填因子是一个百分比,指的是房间被使用的总数达到某个比例时,就将原来的散列表,散列成一个更大的散列表。
如果能预期有多少元素将会进入Hash表,则可以将桶数设计为预计元素个数的75%-150%,但经常完全无法估计数量,则将会根据装填因子进行再散列(默认是0.75,一般不必修改)。
HashSet()
HashSet(int initalCapacity)
HashSet(int initalCapacity, float loadFactor)
还有一种特殊的构造方法,可以将实现了Collection接口的集合元素添加到这个散列表中。
HashSet(Collection<? extends E> elements)
TreeSet
TreeSet是一种树集,它使用红黑树存储元素,元素依据大小比较规则来存储,因此这是一种排序集合,因此你遍历这个集合的时候,将会按照预先规定的比较规则输出元素。
因此这些元素必须实现了Comparable接口,或者是构造时提供一个Comparator比较器。
TreeSet()
TreeSet(Comparator<? super E> comparator)
父接口SortedSet提供的方法
返回用于比较元素的比较器,如果使用元素实现Comparable接口的compareTo方法进行比较,则返回null。
Comparator<? super E> comparator()
返回最大最小元素。
E first() E last()
父接口NavigableSet提供的方法
返回大于value的最小元素、小于value的最大元素,没有这种元素则返回null。
E higher(E value) E lower(E value)
返回大于等于value的最小元素、小于等于value的最大元素,没有这种元素则返回null。
E ceiling(E value) E floor(E value)
删除并返回这个集合中的最小元素或最大元素。
E pollFirst() E pollLast()
返回一个按照降序遍历的迭代器。
Iterator<E> descendingIterator()
ArrayDeque
这是一个用数组实现的队列,它和LinkedList一样都是双端队列,区别在于一个是用数组,一个是用指针,用指针的LinkedList则会产生对于每个元素产生额外的两个指针内存开销;如果你更多的是希望在队列的两端进行操作,则使用它会比较好,否则你应该使用LinkedList。
ArrayDeque和LinkedList在java6中实现了Deque接口,而Deque接口实现了Queue接口。
Deque实现了对于双端队列头尾的操作,包含:添加、删除、获取三种操作,这三种操作每种都实现了对头尾,报错还是返回boolean值的4种形式,共12种不同的方法。
PriorityDeque
这是一个优先队列,它的特点时可以按照任意顺序插入元素,但会按照有序的顺序获取元素。
它使用了一个精巧且高效的数据结构,被称为堆(heap),堆是一个自组织的二叉树,其添加和删除的操作会让最小的元素移动到根,而不必花时间对元素进行排序。
同样的,你也可以在构造PriorityDeque时指定Comparator比较器。
经验总结
1.对于经验丰富的程序员来说,需要动态数组的时候可以使用Vector类,那ArrayList和Vector我们应该选哪种呢?这里需要知道,Vector类的所有方法都是同步的,因此它是线程安全的,但如果你只是希望在一个线程中访问,那Vector的同步开销就会白白浪费时间。