背景
在项目中,需要集合ArrayList存储大量数据时,有时候可能需要对新增数据去重判断时,我们会用到集合的contains方法,判断当前元素是否存在,存在则不存储,不存在则进行存储,本人在生产开发中就遇到contains方法带来的严重性能问题,今天我们将通过下面的contains方法源码分析,以及测试性能的方式,来告诉你ArrayList使用contains方法时,在存储着大量数据的情况下,存在的巨坑!
contains方法源码分析
//判断ArrayList中是否包含某个元素
public boolean contains(Object o) {
//调用indexOf方法
return indexOf(o) >= 0;
}
//巨坑的地方就在此处,判断元素数据存在与否,就是遍历整个ArrayList,挨个比较是否存在
public int indexOf(Object o) {
if (o == null) {
for (int i = 0; i < size; i++)
if (elementData[i]==null)
return i;
} else {
for (int i = 0; i < size; i++)
if (o.equals(elementData[i]))
return i;
}
return -1;
}
通过上面的contain方法的源码,我们得到以下结论:
contains方法实际就是通过遍历整个ArrayList的所有元素,挨个的比较元素是否相等,相等则返回true,不相等则返回flase。
看到这里,我们可能还未意识到contains方法的潜在的性能问题,接下来我们通过下面的代码测试,来告诉大家contains带来巨大的性能问题。
contains方法性能测试
public static void main(String[] args){
//创建一个ArrayList集合
List<Integer> containtestList = new ArrayList<Integer>(1040000);
long start = System.currentTimeMillis();
//遍历104万次,同时判断元素是否存在,不存在的则存储,存在则跳过
for (int i = 0; i < 1040000; i++) {
//判断当前元素是否存在
if(containtestList.contains(i)){
continue;
}else {
//存储
containtestList.add(i);
}
}
System.out.println("消耗时间----->" + (System.currentTimeMillis()-start) + "ms");
}
坑!坑!坑!总共执行了:1420175毫秒,将近23分钟的时间!!!!!
为什么消耗时间为何如此之久??????
原因就在于:每次判断元素是否存在的时候,ArrayList都要从头到尾遍历一次,当元素个数有N个时,判断一个元素是否存在集合中,则最多需要N次判断,数据量越大,遍历的元素个数越多,消耗的时间就越大。
那么,当你既需要存储大量数据,又需要对元素数据进行判断是否已存储在集合中是,该如何做呢?本人建议使用HashMap,在这里就不对HashMap的源码进行相关分析了,后期有机会再对HashMap源码做详细分析介绍,先直接上性能测试代码:
public static void main(String[] args){
//创建一个HashMap
Map<String,Integer> containtestMap = new HashMap<String,Integer>(1040000);
long start = System.currentTimeMillis();
for (int i = 0; i < 1040000; i++) {
//判断是否存在,存在则跳过,不存在存储
if(containtestMap.containsKey(i)){
continue;
}else {
containtestMap.put(""+i,i);
}
}
System.out.println("消耗时间----->" + (System.currentTimeMillis()-start) + "ms");
}
同样存储1040000个元素数据,并且进行去重判断,HashMap只消耗了501毫秒的时间,瞬间秒杀ArrayList无数条街