List
List
是Collection
三大直接子接口之一,其中的数据可以通过位置检索,用户可以在指定位置插入数据。List
的数据可以为空,可以重复。
List中独有的方法
List中存在一些方法是Collection中没有的,主要是一下这些:
//在指定位置,将指定的集合插入到当前的集合中
boolean addAll(int index, Collection<? extends E> c);
//这是一个默认实现的方法,会通过Iterator的方式对每个元素进行指定的操作
default void replaceAll(UnaryOperator<E> operator) {
Objects.requireNonNull(operator);
final ListIterator<E> li = this.listIterator();
while (li.hasNext()) {
li.set(operator.apply(li.next()));
}
}
//排序,依据指定的规则对当前集合进行排序,可以看到,排序是通过Arrays这个工具类完成的。
default void sort(Comparator<? super E> c) {
Object[] a = this.toArray();
Arrays.sort(a, (Comparator) c);
ListIterator<E> i = this.listIterator();
for (Object e : a) {
i.next();
i.set((E) e);
}
}
//获取指定位置的元素
E get(int index);
//修改指定位置元素的值
E set(int index, E element);
//将指定元素添加到指定的位置
void add(int index, E element);
//将指定位置的元素移除
E remove(int index);
//返回一个元素在集合中首次出现的位置
int indexOf(Object o);
//返回一个元素在集合中最后一次出现的位置
int lastIndexOf(Object o);
//ListIterator继承于Iterator,主要增加了向前遍历的功能
ListIterator<E> listIterator();
//从指定位置开始,返回一个ListIterator
ListIterator<E> listIterator(int index);
//返回一个子集合[fromIndex, toIndex),非结构性的修改返回值会反映到原表,反之亦然。
//如果原表进行了结构修改,则返回的子列表可能发生不可预料的事情
List<E> subList(int fromIndex, int toIndex);
通过以上对接口的分析可以发现,Collection
主要提供一些通用的方法,而List
则针对线性表的结构,提供了对位置以及子表的操作。
AbstractList
存在一个AbstractCollection,也存在一个实现类AbstractList,要实现一个不可修改的集合,只需要复写get
和size
就可以了。要实现一个可以修改的集合,还需要复写set
方法,如果要动态调整大小,就必须再实现add
和remove
方法。
//在AbstractCollection中,add方法默认会抛出异常,
//而在这里是调用了add(int index, E e)方法,但这个方法也是没有实现的。
//这里默认会把元素添加到末尾。
public boolean add(E e) {
add(size(), e);
return true;
}
//同上,这个只需要进行一次遍历即可
public boolean addAll(int index, Collection<? extends E> c) {
//判断下标是否越界
rangeCheckForAdd(index);
boolean modified = false;
for (E e : c) {
add(index++, e);
modified = true;
}
return modified;
}
在这个类中实现了iterator方法:
public Iterator<E> iterator() {
return new Itr();
}
在这返回了一个Itr类,这个Itr类实现了Iterator接口。
在这个类中还有一个方法就是listIterator()方法,与上面相同,这个也是返回一个内部类,ListItr类。
public ListIterator<E> listIterator() {
return listIterator(0);
}
public ListIterator<E> listIterator(final int index) {
//判断下标是否越界
rangeCheckForAdd(index);
return new ListItr(index);
}
然后来看一下上面的这两个实现类在AbstractList中做了什么事情:
//寻找一个元素首次出现的位置,只需要从前往后遍历,找到那个元素并返回其位置即可。
public int indexOf(Object o) {
ListIterator<E> it = listIterator();
if (o==null) {
while (it.hasNext())
if (it.next()==null)
return it.previousIndex();
} else {
while (it.hasNext())
if (o.equals(it.next()))
return it.previousIndex();
}
return -1;
}
//同理,寻找一个元素最后一次出现的位置,只需要从列表最后一位向前遍历即可。
public int lastIndexOf(Object o) {
ListIterator<E> it = listIterator(size());
if (o==null) {
//存在上一个元素
while (it.hasPrevious())
if (it.previous()==null)
return it.nextIndex();
} else {
while (it.hasPrevious())
if (o.equals(it.previous()))
return it.nextIndex();
}
return -1;
}
//这个方法是把从fromIndex到toIndex之间的元素从集合中删除。
//clear()方法也是调用这个实现的(我认为clear实现意义并不大,因为在其上级AbstractCollection中已经有了具体实现)。
protected void removeRange(int fromIndex, int toIndex) {
ListIterator<E> it = listIterator(fromIndex);
for (int i=0, n=toIndex-fromIndex; i<n; i++) {
it.next();
it.remove();
}
}
还有一个方法是subList(),这个方法是关于equals()和hashCode()方法的。
public List<E> subList(int fromIndex, int toIndex) {
subListRangeCheck(fromIndex, toIndex, size());
return (this instanceof RandomAccess ?
new RandomAccessSubList<>(this, fromIndex, toIndex) :
new SubList<>(this, fromIndex, toIndex));
}
subList()方法能够从源码中看出来这实际上没有创建新的集合,而是持有了当前集合的引用,然后控制了用户的操作范围,所以接口定义是就说明了其更改就会直接反应到原集合中。SubList定义在AbstractList内部,并且是AbstractList类的子类,在AbstractList类的基础上添加了对可选范围的控制。
equals
和hashcode
的实现,也关乎我们的使用。在AbstractList
中,这两个方法不仅与其实例有关,也和其内部包含的元素有关,所以在定义数据元素时,也应该复写这两个方法,以保证程序的正确运行。这里看下其源码加深一下印象吧。
public boolean equals(Object o) {
if (o == this)
return true;
if (!(o instanceof List))
return false;
ListIterator<E> e1 = listIterator();
ListIterator<?> e2 = ((List<?>) o).listIterator();
while (e1.hasNext() && e2.hasNext()) {
E o1 = e1.next();
Object o2 = e2.next();
//这里用到了数据元素的equals方法
if (!(o1==null ? o2==null : o1.equals(o2)))
return false;
}
return !(e1.hasNext() || e2.hasNext());
}
public int hashCode() {
int hashCode = 1;
for (E e : this)
//这里用到了数据元素的hashCode方法
hashCode = 31*hashCode + (e==null ? 0 : e.hashCode());
return hashCode;
}
ArrayList
List 接口的可调整大小的数组实现。 实现所有可选列表操作,并允许所有元素,包括 null。 除了实现 List 接口之外,该类还提供了一些方法来操作内部用于存储列表的数组的大小。 (这个类大致相当于 Vector,只是它是不同步的。)
ArrayList的数据顺序与插入顺序始终保持一致,其余特性与List中定义的一致。
由上图可以知道,ArrayList实现了三个接口,RandomAccess,Serializable,Cloneable,RandomAccess表示实现类支持快速随机访问,Serializable表示可实现序列化,如需进行自定义,重写writeObject()readObject方法,Cloneable表示实现类支持克隆,(实现clone方法)。
构造方法与初始化
ArrayList有三个构造方法:
//给ArrayList初始大小
public ArrayList(int initialCapacity) {
if (initialCapacity > 0) {
this.elementData = new Object[initialCapacity];
} else if (initialCapacity == 0) {
this.elementData = EMPTY_ELEMENTDATA;
} else {
throw new IllegalArgumentException("Illegal Capacity: "+
initialCapacity);
}
}
//使用默认初始大小,默认大小为10
public ArrayList() {
this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
}
//传进来一个集合,根据集合元素来构建ArrayList
public ArrayList(Collection<? extends E> c) {
elementData = c.toArray();
if ((size = elementData.length) != 0) {
// c.toArray might (incorrectly) not return Object[] (see 6260652)
if (elementData.getClass() != Object[].class)
elementData = Arrays.copyOf(elementData, size, Object[].class);
} else {
// replace with empty array.
this.elementData = EMPTY_ELEMENTDATA;
}
}
//这是一个用来标记存储容量的数组,也是存放实际数据的数组。
//当ArrayList扩容时,其capacity就是这个数组应有的长度。
//默认时为空,添加进第一个元素后,就会直接扩展到DEFAULT_CAPACITY,也就是10
//这里和size区别在于,ArrayList扩容并不是需要多少就扩展多少的
transient Object[] elementData;
//这里就是实际存储的数据个数了
private int size;
除了以上两个成员变量,我们还需要掌握一个变量,它是
protected transient int modCount = 0;
这个变量主要作用是防止在进行一些操作时,改变了ArrayList
的大小,那将使得结果不可预测。
重要方法
ArrayList是一个实现类,所以在List接口中定义的所有方法在这都进行了实现,其中有一些在AbstractList中实现过的方法,在这里再次被重写。
首先来看以下一些之前被实现过的方法:
//还记得在AbstractList中的实现吗?那是基于Iterator完成的。
//在这里完全没必要先转成Iterator再进行操作
public int indexOf(Object o) {
if (o == null) {
for (int i = 0; i < size; i++)
if (elementData[i]==null)
return i;
} else {
for (int i = 0; i < size; i++)
if (o.equals(elementData[i]))
return i;
}
return -1;
}
//和indexOf是相同的道理
public int lastIndexOf(Object o) {
if (o == null) {
for (int i = size-1; i >= 0; i--)
if (elementData[i]==null)
return i;
} else {
for (int i = size-1; i >= 0; i--)
if (o.equals(elementData[i]))
return i;
}
return -1;
}
//一样的道理,已经有了所有元素,不需要再利用Iterator来获取元素了
//注意这里返回时把elementData截断为size大小
public Object[] toArray() {
return Arrays.copyOf(elementData, size);
}
//带类型的转换,看到这里a[size] = null;这个用处真不大,除非你确定所有元素都不为空,
//才可以通过null来判断获取了多少有用数据。
public <T> T[] toArray(T[] a) {
if (a.length < size)
// 给定的数据长度不够,复制出一个新的并返回
return (T[]) Arrays.copyOf(elementData, size, a.getClass());
System.arraycopy(elementData, 0, a, 0, size);
if (a.length > size)
a[size] = null;
return a;
}
在数据操作中,最重要的就是增删改查,改查都不涉及长度的变化,而增删就涉及到动态调整大小的问题,首先来看一下改和查是如何实现的:
//判断是否下标越界
private void rangeCheck(int index) {
if (index >= size)
throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
}
//只要获取的数据位置在0-size之间即可
public E get(int index) {
rangeCheck(index);
return elementData(index);
}
//改变下对应位置的值
public E set(int index, E element) {
rangeCheck(index);
E oldValue = elementData(index);
elementData[index] = element;
return oldValue;
}
增加和删除是ArrayList中最重要的部分,下面是添加的源码:
//在最后添加一个元素
public boolean add(E e) {
//先确保elementData数组的长度足够
ensureCapacityInternal(size + 1); // Increments modCount!!
elementData[size++] = e;
return true;
}
public void add(int index, E element) {
rangeCheckForAdd(index);
//先确保elementData数组的长度足够
ensureCapacityInternal(size + 1); // Increments modCount!!
//将数据向后移动一位,空出位置之后再插入
System.arraycopy(elementData, index, elementData, index + 1,
size - index);
elementData[index] = element;
size++;
}
在添加中,都调用了ensureCapacityInternal()这个方法:
//在定义elementData时就提过,插入第一个数据就直接将其扩充至10
private void ensureCapacityInternal(int minCapacity) {
if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
}
//这里把工作又交了出去
ensureExplicitCapacity(minCapacity);
}
//如果elementData的长度不能满足需求,就需要扩充了
private void ensureExplicitCapacity(int minCapacity) {
modCount++;
// overflow-conscious code
if (minCapacity - elementData.length > 0)
grow(minCapacity);
}
//扩充
private void grow(int minCapacity) {
// overflow-conscious code
int oldCapacity = elementData.length;
//可以看到这里是1.5倍扩充的 oldCapacity+(oldCapacity/2)
int newCapacity = oldCapacity + (oldCapacity >> 1);
//扩充完之后,还是没满足,这时候就直接扩充到minCapacity
if (newCapacity - minCapacity < 0)
newCapacity = minCapacity;
//防止溢出
if (newCapacity - MAX_ARRAY_SIZE > 0)
newCapacity = hugeCapacity(minCapacity);
// minCapacity is usually close to size, so this is a win:
elementData = Arrays.copyOf(elementData, newCapacity);
}
在这就能够明白ArrayList的扩容机制了,首先创建一个空的数组elementData,当插入第一条数据的时候就直接扩容到10,然后如果elelmentData的长度还是不足,那么将会使用需要的长度作为elementData的长度。
这虽然能够完成扩容,但是在数据量比较大的时候还是会频繁的拷贝数据,如何能够缓解这种问题呢,ArrayList提供了两种可行的方案:
1.使用ArrayList(int initialCapacity)
这个有参构造,在创建时就声明一个较大的大小,这样解决了频繁拷贝问题,但是需要我们提前预知数据的数量级,也会一直占有较大的内存。
2.除了添加数据时可以自动扩容外,我们还可以在插入前先进行一次扩容。只要提前预知数据的数量级,就可以在需要时直接一次扩充到位,与ArrayList(int initialCapacity)
相比的好处在于不必一直占有较大内存,同时数据拷贝的次数也大大减少了。这个方法就是ensureCapacity(int minCapacity),其内部就是调用了ensureCapacityInternal(int minCapacity)
。
还有一些重要的方法,但是实现的原理基本上是相同的,下面是一些方法:
//将elementData的大小设置为和size一样大,释放所有无用内存
public void trimToSize()
//删除指定位置的元素
public E remove(int index)
//根据元素本身删除
public boolean remove(Object o)
//在末尾添加一些元素
public boolean addAll(Collection<? extends E> c)
//从指定位置起,添加一些元素
public boolean addAll(int index, Collection<? extends E> c)
//删除指定范围内的元素
protected void removeRange(int fromIndex, int toIndex)
//删除所有包含在c中的元素
public boolean removeAll(Collection<?> c)
//仅保留所有包含在c中的元素
public boolean retainAll(Collection<?> c)
再来看一下在序列化时自定义了哪些东西:
private void writeObject(java.io.ObjectOutputStream s)
throws java.io.IOException{
// Write out element count, and any hidden stuff
int expectedModCount = modCount;
s.defaultWriteObject();
// Write out size as capacity for behavioural compatibility with clone()
s.writeInt(size);
// Write out all elements in the proper order.
for (int i=0; i<size; i++) {
s.writeObject(elementData[i]);
}
//如果序列化的时候进行了修改,将会抛出异常(modCount这个变量被transient修饰)
if (modCount != expectedModCount) {
throw new ConcurrentModificationException();
}
}
ArrayList的一些问题
ArrayList的扩容因子为什么是1.5?
k=1.5时,就能充分利用前面已经释放的空间。如果k >= 2,新容量刚刚好永远大于过去所有废弃的数组容量。
为什么不取扩容固定容量呢?
扩容的目的需要综合考虑这两种情况:
扩容容量不能太小,防止频繁扩容,频繁申请内存空间 + 数组频繁复制
扩容容量不能太大,需要充分利用空间,避免浪费过多空间;
而扩容固定容量,很难决定到底取多少值合适,取任何具体值都不太合适,因为所需数据量往往由数组的客户端在具体应用场景决定。依赖于当前已经使用的量 * 系数, 比较符合实际应用场景。
比如,我现在已经用到一个数组100的容量,接下来很可能会有这个数量级的数据需要插入。
为什么是1.5,而不是1.2,1.25,1.8或者1.75?
因为1.5 可以充分利用移位操作,减少浮点数或者运算时间和运算次数。
为什么数组长度的最大值MAX_ARRAY_size是Integer.MAX_VALUE - 8
数组作为一个对象,需要一定的内存存储对象头信息,对象头信息最大占用内存不可超过8字节。
Fial-Fast机制
我们都知道这些集合是线程不安全的,如果在使用迭代器的过程中,有其他线程对集合进行了修改,那么就会抛出ConcurrentModificationException异常,这就是Fail-Fast策略。而这个时候源码中就通过modCount进行了操作。迭代器在创建时,会创建一个变量等于当时的modCount,如果在迭代过程中,集合发生了变化,modCount就是++。这时迭代器中的变量的值和modCount不相等了,那就抛异常。
所以,遍历线程不安全的集合时,尽量使用迭代器。
如何实现线程安全的ArrayList
- 所有涉及到改变 modCount 值得地方全部加上 synchronized
- 直接使用 Collections.synchronizedList
- 使用Vector
- 使用CopyOnWriteArrayList替换ArrayList。
ArrayList和Vector的区别
ArrayList线程不安全,Vector线程安全。都允许值为null。
默认大小都是10
扩容的时候ArrayList默认扩容原大小的1.5倍,Vector默认扩容原大小的2倍(可自定义)。
LinkedList
AbstractSequentialList
AbstractSequentialList是List的父级,它继承自AbstractList,并且是一个抽象类,它主要为顺序表的链式骨架。提供一个实现List的接口骨架,来减少我们实现基于链式存储的实现类时所需要的工作量。AbstractSequentialList并没有做特殊的事情,其中最主要的是提供一个方法的默认实现,并将以下方法抽象:
public abstract ListIterator<E> listIterator(int index);
这些方法的实现都利用了这个listIterator方法。
在这实现了Serializable,Cloneable等接口。
构造方法与成员变量
这里定义了链表的节点,这是一个双向链表的节点。
private static class Node<E> {
E item;
Node<E> next;
Node<E> prev;
Node(Node<E> prev, E element, Node<E> next) {
this.item = element;
this.next = next;
this.prev = prev;
}
}
成员变量LinkedList的成员变量主要有三个:
//记录当前链表的长度
transient int size = 0;
//第一个节点
transient Node<E> first;
//最后一个节点
transient Node<E> last;
构造方法:
//空构造方法
public LinkedList() {
}
//传入一个集合,将所有元素转换为LinkedList的元素
public LinkedList(Collection<? extends E> c) {
this();
addAll(c);
}
重要方法
LinkedList继承了List,也继承了Deque,所以也实现了一些在List中不存在的方法。
//将元素插入到首位
private void linkFirst(E e) {
//先将原链表存起来
final Node<E> f = first;
//闯将一个新的节点,保存新的数据
final Node<E> newNode = new Node<>(null, e, f);
first = newNode;
if (f == null)
//如果原链表为空,现在将last指向i下你创建的节点
last = newNode;
else
//将原链表的前驱指向新创建的节点
f.prev = newNode;
size++;
modCount++;
}
//和linkFirst类似
void linkLast(E e) {
final Node<E> l = last;
final Node<E> newNode = new Node<>(l, e, null);
last = newNode;
if (l == null)
first = newNode;
else
l.next = newNode;
size++;
modCount++;
}
//在某个非空节点之前添加元素
void linkBefore(E e, Node<E> succ) {
// assert succ != null;
//拿到节点的前驱
final Node<E> pred = succ.prev;
//创建新的节点
final Node<E> newNode = new Node<>(pred, e, succ);
succ.prev = newNode;
//前置节点为空
if (pred == null)
//说明插入到了首位
first = newNode;
else
//把前置节点的next指针指向新创建的节点
pred.next = newNode;
size++;
modCount++;
}
//删除首位元素,元素必须非空
private E unlinkFirst(Node<E> f) {
// assert f == first && f != null;
final E element = f.item;
final Node<E> next = f.next;
f.item = null;
f.next = null; // help GC
first = next;
if (next == null)
last = null;
else
next.prev = null;
size--;
modCount++;
return element;
}
//删除末尾元素
private E unlinkLast(Node<E> l) {
// assert l == last && l != null;
final E element = l.item;
final Node<E> prev = l.prev;
l.item = null;
l.prev = null; // help GC
last = prev;
if (prev == null)
first = null;
else
prev.next = null;
size--;
modCount++;
return element;
}
//删除指定元素
E unlink(Node<E> x) {
// assert x != null;
final E element = x.item;
final Node<E> next = x.next;
final Node<E> prev = x.prev;
if (prev == null) {
first = next;
} else {
prev.next = next;
x.prev = null;
}
if (next == null) {
last = prev;
} else {
next.prev = prev;
x.next = null;
}
x.item = null;
size--;
modCount++;
return element;
}
在上面有插入和删除的方法,但是没有查询的方法,因为链表的查询是比较慢的,所以链表的查询是通过其他方法来实现的。
public E get(int index) {
checkElementIndex(index);
return node(index).item;
}
Node<E> node(int index) {
// assert isElementIndex(index);
//折半
if (index < (size >> 1)) {
Node<E> x = first;
for (int i = 0; i < index; i++)
x = x.next;
return x;
} else {
Node<E> x = last;
for (int i = size - 1; i > index; i--)
x = x.prev;
return x;
}
}
还有一些之前继承的方法:
//引用了node方法,需要遍历
public E set(int index, E element) {
checkElementIndex(index);
Node<E> x = node(index);
E oldVal = x.item;
x.item = element;
return oldVal;
}
//也可能需要遍历
public void add(int index, E element) {
checkPositionIndex(index);
if (index == size)
linkLast(element);
else
//遍历
linkBefore(element, node(index));
}
//也要遍历
public E remove(int index) {
checkElementIndex(index);
//移除指定元素
return unlink(node(index));
}
//判断首元素是否为空(栈是否为空栈)
public E peek() {
final Node<E> f = first;
return (f == null) ? null : f.item;
}
//查询首元素
public E element() {
return getFirst();
}
//出栈
public E poll() {
final Node<E> f = first;
return (f == null) ? null : unlinkFirst(f);
}
//移除首元素
public E remove() {
return removeFirst();
}
//在尾插入元素
public boolean offer(E e) {
return add(e);
}
//在首插入元素
public boolean offerFirst(E e) {
addFirst(e);
return true;
}
ArrayList和LinkedList
都允许空值。
ArrayList是数组实现的,有扩容操作。LinkedList是链表实现,双向链表。
ArrayList的get/set性能好,LinkedList的插入和删除性能好。可是事实并不是这样,如果是从头部开始插入,LinkedList性能比ArrayList好;从中间插入,ArrayList却远好于LinkedList;从尾端插入,ArrayList比LinkedList好。
LinkedList同时还支持堆栈、队列的API,所以也可以把它当做堆栈、队列使用。
ArrayList的遍历就是简单的从0开始遍历,而LinkedList他会判断当前的值是前半部分还是后半部分,对应的就从头还是尾开始遍历。