java 大数据比较两个list集合的差值

9 篇文章 0 订阅

有这么个场景,每天需要定时任务插入增量数据。如果通过接口获取的直接根据时间过滤,那么就能直接就可以插入库中。但有时获取到的并不是增量数据,比如微信公众号获取关注者列表时,获取到的是全量数据,这样每天就得将全量数据与库中进行比较,只有库中不存在数据才进行插入。这就有了两个list比较差值的问题。

以前在处理该问题时,会遍历全量中的list,然后判断每个对象是否已在数中存在,如果不存在就放到一个临时List中,最后返回的临时List就是增量数据了,代码如下:

private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
	    if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
	    	List<String> resultList = new ArrayList<String>();
	    	
	    	if (allOpenidList != null && !allOpenidList.isEmpty()) {
	    		for (String openid : allOpenidList) {
		    		if (!dbOpenidList.contains(openid)) {
		    			resultList.add(openid);
		    		}
		    	}
	    	}
	    	return resultList;
	    } else {
	    	return allOpenidList;
	    }
    }

但这种在处理几千条数据还好,等上万、或上十万时,执行效率就会很低。即便我后来用list1.removeAll(list2)时,在处理40万条数据时,10分钟根本处理不完。

后来用如下方法,瞬间完成:

private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
	    if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
	    	Map<String, String> dataMap = new HashMap<String, String>();
			for (String id : dbOpenidList) {
				dataMap.put(id, id);
			}
			
			List<String> newList = new ArrayList<String>();
			for (String id : allOpenidList) {
				if (!dataMap.containsKey(id)) {
					newList.add(id);
				}
			}
			return newList;
	    } else {
	    	return allOpenidList;
	    }
    }

1.将数据库中的list转成一个map集合

2.遍历获取到的全量数据,通过主键或唯一索引之类的字段进行比较

3.如果map.get(key)不存在,放到一个临时List中

4.最后将临时List返回

原因就是底层数据结构来实现的,list虽然有随机访问特性,但如果要查找某值,需要遍历查找。而Map用hashCode去命中,再去链表查找,效率会提升很多。

当然如果只看key,不需要value值存储的话,也可以用HashSet的数据结构,其底层的存储其实也是用HashMap来实现的,只是只用了key而已。

  • 9
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值