List集合源码分析

【X俠★義Y】

于 2022-07-22 22:37:59 发布

阅读量281

点赞数

文章标签： list 数据结构算法

本文链接：https://blog.csdn.net/qq_52353404/article/details/125941209

版权

List

List是Collection三大直接子接口之一，其中的数据可以通过位置检索，用户可以在指定位置插入数据。List的数据可以为空，可以重复。

List中独有的方法

List中存在一些方法是Collection中没有的，主要是一下这些：

//在指定位置，将指定的集合插入到当前的集合中
boolean addAll(int index, Collection<? extends E> c);

//这是一个默认实现的方法，会通过Iterator的方式对每个元素进行指定的操作
default void replaceAll(UnaryOperator<E> operator) {
    Objects.requireNonNull(operator);
    final ListIterator<E> li = this.listIterator();
    while (li.hasNext()) {
        li.set(operator.apply(li.next()));
    }
}

//排序，依据指定的规则对当前集合进行排序，可以看到，排序是通过Arrays这个工具类完成的。
default void sort(Comparator<? super E> c) {
    Object[] a = this.toArray();
    Arrays.sort(a, (Comparator) c);
    ListIterator<E> i = this.listIterator();
    for (Object e : a) {
        i.next();
        i.set((E) e);
    }
}

//获取指定位置的元素
E get(int index);

//修改指定位置元素的值
E set(int index, E element);

//将指定元素添加到指定的位置
void add(int index, E element);

//将指定位置的元素移除
E remove(int index);

//返回一个元素在集合中首次出现的位置
int indexOf(Object o);

//返回一个元素在集合中最后一次出现的位置
int lastIndexOf(Object o);

//ListIterator继承于Iterator，主要增加了向前遍历的功能
ListIterator<E> listIterator();

//从指定位置开始，返回一个ListIterator
ListIterator<E> listIterator(int index);

//返回一个子集合[fromIndex, toIndex)，非结构性的修改返回值会反映到原表，反之亦然。
//如果原表进行了结构修改，则返回的子列表可能发生不可预料的事情
List<E> subList(int fromIndex, int toIndex);

通过以上对接口的分析可以发现，Collection主要提供一些通用的方法，而List则针对线性表的结构，提供了对位置以及子表的操作。

AbstractList

存在一个AbstractCollection，也存在一个实现类AbstractList，要实现一个不可修改的集合，只需要复写get和size就可以了。要实现一个可以修改的集合，还需要复写set方法，如果要动态调整大小，就必须再实现add和remove方法。

//在AbstractCollection中，add方法默认会抛出异常，
//而在这里是调用了add(int index, E e)方法，但这个方法也是没有实现的。
//这里默认会把元素添加到末尾。
public boolean add(E e) {
    add(size(), e);
    return true;
}

//同上，这个只需要进行一次遍历即可
public boolean addAll(int index, Collection<? extends E> c) {
    //判断下标是否越界
    rangeCheckForAdd(index);
    boolean modified = false;
    for (E e : c) {
        add(index++, e);
        modified = true;
    }
    return modified;   
}

在这个类中实现了iterator方法：

public Iterator<E> iterator() {
    return new Itr();
}

在这返回了一个Itr类，这个Itr类实现了Iterator接口。

在这个类中还有一个方法就是listIterator()方法,与上面相同，这个也是返回一个内部类，ListItr类。

    public ListIterator<E> listIterator() {
        return listIterator(0);
    }

    public ListIterator<E> listIterator(final int index) {
        //判断下标是否越界
        rangeCheckForAdd(index);
        return new ListItr(index);
    }

然后来看一下上面的这两个实现类在AbstractList中做了什么事情：

//寻找一个元素首次出现的位置，只需要从前往后遍历，找到那个元素并返回其位置即可。
public int indexOf(Object o) {
    ListIterator<E> it = listIterator();
    if (o==null) {
        while (it.hasNext())
            if (it.next()==null)
                return it.previousIndex();
    } else {
        while (it.hasNext())
            if (o.equals(it.next()))
                return it.previousIndex();
    }
    return -1;
}

//同理，寻找一个元素最后一次出现的位置，只需要从列表最后一位向前遍历即可。
public int lastIndexOf(Object o) {
    ListIterator<E> it = listIterator(size());
    if (o==null) {
        //存在上一个元素
        while (it.hasPrevious())
            if (it.previous()==null)
                return it.nextIndex();
    } else {
        while (it.hasPrevious())
            if (o.equals(it.previous()))
                return it.nextIndex();
    }
    return -1;
}

//这个方法是把从fromIndex到toIndex之间的元素从集合中删除。
//clear()方法也是调用这个实现的（我认为clear实现意义并不大，因为在其上级AbstractCollection中已经有了具体实现）。
protected void removeRange(int fromIndex, int toIndex) {
    ListIterator<E> it = listIterator(fromIndex);
    for (int i=0, n=toIndex-fromIndex; i<n; i++) {
        it.next();
        it.remove();
    }
}

还有一个方法是subList()，这个方法是关于equals()和hashCode()方法的。

public List<E> subList(int fromIndex, int toIndex) {
    subListRangeCheck(fromIndex, toIndex, size());
    return (this instanceof RandomAccess ?
        new RandomAccessSubList<>(this, fromIndex, toIndex) :
        new SubList<>(this, fromIndex, toIndex));
}

subList()方法能够从源码中看出来这实际上没有创建新的集合，而是持有了当前集合的引用，然后控制了用户的操作范围，所以接口定义是就说明了其更改就会直接反应到原集合中。SubList定义在AbstractList内部，并且是AbstractList类的子类，在AbstractList类的基础上添加了对可选范围的控制。

equals和hashcode的实现，也关乎我们的使用。在AbstractList中，这两个方法不仅与其实例有关，也和其内部包含的元素有关，所以在定义数据元素时，也应该复写这两个方法，以保证程序的正确运行。这里看下其源码加深一下印象吧。

public boolean equals(Object o) {
    if (o == this)
        return true;
    if (!(o instanceof List))
        return false;

    ListIterator<E> e1 = listIterator();
    ListIterator<?> e2 = ((List<?>) o).listIterator();
    while (e1.hasNext() && e2.hasNext()) {
        E o1 = e1.next();
        Object o2 = e2.next();
        //这里用到了数据元素的equals方法
        if (!(o1==null ? o2==null : o1.equals(o2)))
            return false;
    }
    return !(e1.hasNext() || e2.hasNext());
}

public int hashCode() {
    int hashCode = 1;
    for (E e : this)
        //这里用到了数据元素的hashCode方法
        hashCode = 31*hashCode + (e==null ? 0 : e.hashCode());
    return hashCode;
}

ArrayList

List 接口的可调整大小的数组实现。实现所有可选列表操作，并允许所有元素，包括 null。除了实现 List 接口之外，该类还提供了一些方法来操作内部用于存储列表的数组的大小。（这个类大致相当于 Vector，只是它是不同步的。）

ArrayList的数据顺序与插入顺序始终保持一致，其余特性与List中定义的一致。

在这里插入图片描述

由上图可以知道，ArrayList实现了三个接口，RandomAccess，Serializable，Cloneable，RandomAccess表示实现类支持快速随机访问，Serializable表示可实现序列化，如需进行自定义，重写writeObject()readObject方法，Cloneable表示实现类支持克隆，（实现clone方法）。

构造方法与初始化

ArrayList有三个构造方法：

//给ArrayList初始大小
public ArrayList(int initialCapacity) {
    if (initialCapacity > 0) {
    	this.elementData = new Object[initialCapacity];
    } else if (initialCapacity == 0) {
    	this.elementData = EMPTY_ELEMENTDATA;
    } else {
    	throw new IllegalArgumentException("Illegal Capacity: "+
    	initialCapacity);
    }
}

//使用默认初始大小，默认大小为10
public ArrayList() {
    this.elementData = DEFAULTCAPACITY_EMPTY_ELEMENTDATA;
}

//传进来一个集合，根据集合元素来构建ArrayList
public ArrayList(Collection<? extends E> c) {
    elementData = c.toArray();
    if ((size = elementData.length) != 0) {
        // c.toArray might (incorrectly) not return Object[] (see 6260652)
        if (elementData.getClass() != Object[].class)
            elementData = Arrays.copyOf(elementData, size, Object[].class);
    } else {
        // replace with empty array.
        this.elementData = EMPTY_ELEMENTDATA;
    }
}

//这是一个用来标记存储容量的数组，也是存放实际数据的数组。
//当ArrayList扩容时，其capacity就是这个数组应有的长度。
//默认时为空，添加进第一个元素后，就会直接扩展到DEFAULT_CAPACITY，也就是10
//这里和size区别在于，ArrayList扩容并不是需要多少就扩展多少的
transient Object[] elementData;

//这里就是实际存储的数据个数了
private int size;

除了以上两个成员变量，我们还需要掌握一个变量，它是

protected transient int modCount = 0;

这个变量主要作用是防止在进行一些操作时，改变了ArrayList的大小，那将使得结果不可预测。

重要方法

ArrayList是一个实现类，所以在List接口中定义的所有方法在这都进行了实现，其中有一些在AbstractList中实现过的方法，在这里再次被重写。

首先来看以下一些之前被实现过的方法：

//还记得在AbstractList中的实现吗？那是基于Iterator完成的。
//在这里完全没必要先转成Iterator再进行操作
public int indexOf(Object o) {
    if (o == null) {
        for (int i = 0; i < size; i++)
            if (elementData[i]==null)
                return i;
    } else {
        for (int i = 0; i < size; i++)
            if (o.equals(elementData[i]))
                return i;
    }
    return -1;
}

//和indexOf是相同的道理
 public int lastIndexOf(Object o) {
     if (o == null) {
         for (int i = size-1; i >= 0; i--)
             if (elementData[i]==null)
                 return i;
     } else {
         for (int i = size-1; i >= 0; i--)
             if (o.equals(elementData[i]))
                 return i;
     }
     return -1;
}

//一样的道理，已经有了所有元素，不需要再利用Iterator来获取元素了
//注意这里返回时把elementData截断为size大小
public Object[] toArray() {
    return Arrays.copyOf(elementData, size);
}

//带类型的转换，看到这里a[size] = null;这个用处真不大，除非你确定所有元素都不为空，
//才可以通过null来判断获取了多少有用数据。
public <T> T[] toArray(T[] a) {
    if (a.length < size)
        // 给定的数据长度不够，复制出一个新的并返回
        return (T[]) Arrays.copyOf(elementData, size, a.getClass());
    System.arraycopy(elementData, 0, a, 0, size);
    if (a.length > size)
        a[size] = null;
    return a;
}

在数据操作中，最重要的就是增删改查，改查都不涉及长度的变化，而增删就涉及到动态调整大小的问题，首先来看一下改和查是如何实现的：

//判断是否下标越界
private void rangeCheck(int index) {
    if (index >= size)
        throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
}

//只要获取的数据位置在0-size之间即可
public E get(int index) {
    rangeCheck(index);

    return elementData(index);
}

//改变下对应位置的值
public E set(int index, E element) {
    rangeCheck(index);

    E oldValue = elementData(index);
    elementData[index] = element;
    return oldValue;
}

增加和删除是ArrayList中最重要的部分，下面是添加的源码：

//在最后添加一个元素
public boolean add(E e) {
    //先确保elementData数组的长度足够
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    elementData[size++] = e;
    return true;
}

public void add(int index, E element) {
    rangeCheckForAdd(index);

    //先确保elementData数组的长度足够
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    //将数据向后移动一位，空出位置之后再插入
    System.arraycopy(elementData, index, elementData, index + 1,
                         size - index);
    elementData[index] = element;
    size++;
}

在添加中，都调用了ensureCapacityInternal()这个方法：

//在定义elementData时就提过，插入第一个数据就直接将其扩充至10
private void ensureCapacityInternal(int minCapacity) {
    if (elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA) {
        minCapacity = Math.max(DEFAULT_CAPACITY, minCapacity);
    }
    
    //这里把工作又交了出去
    ensureExplicitCapacity(minCapacity);
}

//如果elementData的长度不能满足需求，就需要扩充了
private void ensureExplicitCapacity(int minCapacity) {
    modCount++;

    // overflow-conscious code
    if (minCapacity - elementData.length > 0)
        grow(minCapacity);
}

//扩充
private void grow(int minCapacity) {
    // overflow-conscious code
    int oldCapacity = elementData.length;
    //可以看到这里是1.5倍扩充的 oldCapacity+(oldCapacity/2)
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    
    //扩充完之后，还是没满足，这时候就直接扩充到minCapacity
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    //防止溢出
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity);
    // minCapacity is usually close to size, so this is a win:
    elementData = Arrays.copyOf(elementData, newCapacity);
}

在这就能够明白ArrayList的扩容机制了，首先创建一个空的数组elementData，当插入第一条数据的时候就直接扩容到10，然后如果elelmentData的长度还是不足，那么将会使用需要的长度作为elementData的长度。

这虽然能够完成扩容，但是在数据量比较大的时候还是会频繁的拷贝数据，如何能够缓解这种问题呢，ArrayList提供了两种可行的方案：

1.使用ArrayList(int initialCapacity)这个有参构造，在创建时就声明一个较大的大小，这样解决了频繁拷贝问题，但是需要我们提前预知数据的数量级，也会一直占有较大的内存。

2.除了添加数据时可以自动扩容外，我们还可以在插入前先进行一次扩容。只要提前预知数据的数量级，就可以在需要时直接一次扩充到位，与ArrayList(int initialCapacity)相比的好处在于不必一直占有较大内存，同时数据拷贝的次数也大大减少了。这个方法就是ensureCapacity(int minCapacity)，其内部就是调用了ensureCapacityInternal(int minCapacity)。

还有一些重要的方法，但是实现的原理基本上是相同的，下面是一些方法：

//将elementData的大小设置为和size一样大，释放所有无用内存
public void trimToSize() 

//删除指定位置的元素
public E remove(int index)

//根据元素本身删除
public boolean remove(Object o)

//在末尾添加一些元素
public boolean addAll(Collection<? extends E> c)

//从指定位置起，添加一些元素
public boolean addAll(int index, Collection<? extends E> c)

//删除指定范围内的元素
protected void removeRange(int fromIndex, int toIndex)
    
//删除所有包含在c中的元素
public boolean removeAll(Collection<?> c)

//仅保留所有包含在c中的元素
public boolean retainAll(Collection<?> c)

再来看一下在序列化时自定义了哪些东西：

    private void writeObject(java.io.ObjectOutputStream s)
        throws java.io.IOException{
        // Write out element count, and any hidden stuff
        int expectedModCount = modCount;
        s.defaultWriteObject();

        // Write out size as capacity for behavioural compatibility with clone()
        s.writeInt(size);

        // Write out all elements in the proper order.
        for (int i=0; i<size; i++) {
            s.writeObject(elementData[i]);
        }
		//如果序列化的时候进行了修改，将会抛出异常（modCount这个变量被transient修饰）
        if (modCount != expectedModCount) {
            throw new ConcurrentModificationException();
        }
    }

ArrayList的一些问题

ArrayList的扩容因子为什么是1.5？

k=1.5时，就能充分利用前面已经释放的空间。如果k >= 2，新容量刚刚好永远大于过去所有废弃的数组容量。

为什么不取扩容固定容量呢？

扩容的目的需要综合考虑这两种情况：

扩容容量不能太小，防止频繁扩容，频繁申请内存空间 + 数组频繁复制

扩容容量不能太大，需要充分利用空间，避免浪费过多空间；

而扩容固定容量，很难决定到底取多少值合适，取任何具体值都不太合适，因为所需数据量往往由数组的客户端在具体应用场景决定。依赖于当前已经使用的量 * 系数，比较符合实际应用场景。

比如，我现在已经用到一个数组100的容量，接下来很可能会有这个数量级的数据需要插入。

为什么是1.5，而不是1.2，1.25，1.8或者1.75？

因为1.5 可以充分利用移位操作，减少浮点数或者运算时间和运算次数。

为什么数组长度的最大值MAX_ARRAY_size是Integer.MAX_VALUE - 8

数组作为一个对象，需要一定的内存存储对象头信息，对象头信息最大占用内存不可超过8字节。

Fial-Fast机制

我们都知道这些集合是线程不安全的，如果在使用迭代器的过程中，有其他线程对集合进行了修改，那么就会抛出ConcurrentModificationException异常，这就是Fail-Fast策略。而这个时候源码中就通过modCount进行了操作。迭代器在创建时，会创建一个变量等于当时的modCount，如果在迭代过程中，集合发生了变化，modCount就是++。这时迭代器中的变量的值和modCount不相等了，那就抛异常。

所以，遍历线程不安全的集合时，尽量使用迭代器。

如何实现线程安全的ArrayList

所有涉及到改变 modCount 值得地方全部加上 synchronized
直接使用 Collections.synchronizedList
使用Vector
使用CopyOnWriteArrayList替换ArrayList。

ArrayList和Vector的区别

ArrayList线程不安全，Vector线程安全。都允许值为null。
默认大小都是10
扩容的时候ArrayList默认扩容原大小的1.5倍，Vector默认扩容原大小的2倍(可自定义)。

LinkedList

AbstractSequentialList

AbstractSequentialList是List的父级，它继承自AbstractList，并且是一个抽象类，它主要为顺序表的链式骨架。提供一个实现List的接口骨架，来减少我们实现基于链式存储的实现类时所需要的工作量。AbstractSequentialList并没有做特殊的事情，其中最主要的是提供一个方法的默认实现，并将以下方法抽象：

public abstract ListIterator<E> listIterator(int index);

这些方法的实现都利用了这个listIterator方法。

在这里插入图片描述

在这实现了Serializable，Cloneable等接口。

构造方法与成员变量

这里定义了链表的节点，这是一个双向链表的节点。

private static class Node<E> {
    E item;
    Node<E> next;
    Node<E> prev;

    Node(Node<E> prev, E element, Node<E> next) {
        this.item = element;
        this.next = next;
        this.prev = prev;
    }
}

成员变量LinkedList的成员变量主要有三个：

//记录当前链表的长度
transient int size = 0;
//第一个节点
transient Node<E> first;
//最后一个节点
transient Node<E> last;

构造方法：

//空构造方法
public LinkedList() {
}

//传入一个集合，将所有元素转换为LinkedList的元素
public LinkedList(Collection<? extends E> c) {
    this();
    addAll(c);
}

重要方法

LinkedList继承了List，也继承了Deque，所以也实现了一些在List中不存在的方法。

//将元素插入到首位
private void linkFirst(E e) {
    //先将原链表存起来
    final Node<E> f = first;
    //闯将一个新的节点，保存新的数据
    final Node<E> newNode = new Node<>(null, e, f);
    first = newNode;
    if (f == null)
    	//如果原链表为空，现在将last指向i下你创建的节点
        last = newNode;
    else
        //将原链表的前驱指向新创建的节点
    	f.prev = newNode;
    size++;
    modCount++;
}

//和linkFirst类似
void linkLast(E e) {
    final Node<E> l = last;
    final Node<E> newNode = new Node<>(l, e, null);
    last = newNode;
    if (l == null)
        first = newNode;
    else
        l.next = newNode;
    size++;
    modCount++;
}

//在某个非空节点之前添加元素
void linkBefore(E e, Node<E> succ) {
    // assert succ != null;
    //拿到节点的前驱
    final Node<E> pred = succ.prev;
    //创建新的节点
    final Node<E> newNode = new Node<>(pred, e, succ);
    succ.prev = newNode;
    //前置节点为空
    if (pred == null)
        //说明插入到了首位
        first = newNode;
    else
        //把前置节点的next指针指向新创建的节点
        pred.next = newNode;
    size++;
    modCount++;
}

//删除首位元素，元素必须非空
private E unlinkFirst(Node<E> f) {
    // assert f == first && f != null;
    final E element = f.item;
    final Node<E> next = f.next;
    f.item = null;
    f.next = null; // help GC
    first = next;
    if (next == null)
        last = null;
    else
        next.prev = null;
    size--;
    modCount++;
    return element;
}

//删除末尾元素
private E unlinkLast(Node<E> l) {
    // assert l == last && l != null;
    final E element = l.item;
    final Node<E> prev = l.prev;
    l.item = null;
    l.prev = null; // help GC
    last = prev;
    if (prev == null)
        first = null;
    else
        prev.next = null;
    size--;
    modCount++;
    return element;
}

//删除指定元素
E unlink(Node<E> x) {
    // assert x != null;
    final E element = x.item;
    final Node<E> next = x.next;
    final Node<E> prev = x.prev;

    if (prev == null) {
        first = next;
    } else {
        prev.next = next;
        x.prev = null;
    }

    if (next == null) {
        last = prev;
    } else {
        next.prev = prev;
        x.next = null;
    }

    x.item = null;
    size--;
    modCount++;
    return element;
}

在上面有插入和删除的方法，但是没有查询的方法，因为链表的查询是比较慢的，所以链表的查询是通过其他方法来实现的。

public E get(int index) {
    checkElementIndex(index);
    return node(index).item;
}


Node<E> node(int index) {
    // assert isElementIndex(index);
    //折半
    if (index < (size >> 1)) {
        Node<E> x = first;
        for (int i = 0; i < index; i++)
            x = x.next;
        return x;
    } else {
        Node<E> x = last;
        for (int i = size - 1; i > index; i--)
            x = x.prev;
        return x;
    }
}

还有一些之前继承的方法：

//引用了node方法，需要遍历
public E set(int index, E element) {
    checkElementIndex(index);
    Node<E> x = node(index);
    E oldVal = x.item;
    x.item = element;
    return oldVal;
}

//也可能需要遍历
public void add(int index, E element) {
    checkPositionIndex(index);

    if (index == size)
        linkLast(element);
    else
        //遍历
        linkBefore(element, node(index));
}

//也要遍历
public E remove(int index) {
    checkElementIndex(index);
    //移除指定元素
    return unlink(node(index));
}

//判断首元素是否为空（栈是否为空栈）
public E peek() {
    final Node<E> f = first;
    return (f == null) ? null : f.item;
}

//查询首元素
public E element() {
    return getFirst();
}

//出栈
public E poll() {
    final Node<E> f = first;
    return (f == null) ? null : unlinkFirst(f);
}

//移除首元素
public E remove() {
    return removeFirst();
}

//在尾插入元素
public boolean offer(E e) {
    return add(e);
}

//在首插入元素
public boolean offerFirst(E e) {
    addFirst(e);
    return true;
}

ArrayList和LinkedList

都允许空值。
ArrayList是数组实现的，有扩容操作。LinkedList是链表实现，双向链表。
ArrayList的get/set性能好，LinkedList的插入和删除性能好。可是事实并不是这样，如果是从头部开始插入，LinkedList性能比ArrayList好；从中间插入，ArrayList却远好于LinkedList；从尾端插入，ArrayList比LinkedList好。
LinkedList同时还支持堆栈、队列的API，所以也可以把它当做堆栈、队列使用。
ArrayList的遍历就是简单的从0开始遍历，而LinkedList他会判断当前的值是前半部分还是后半部分，对应的就从头还是尾开始遍历。