最全这段代码让程序执行效率提升200倍,值得一看,做了6年的Java

最后

image.png

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

任务优化

通过任务日志发现有一个上游系统的数据抽取执行时间有3个小时,而数据量仅100万。当然,光凭这样还无法确定这个任务是否是可以被优化的。

查看任务代码,逻辑还比较简单:有一张原始数据表,记录商品信息以及定义的分类(这一点是虚构的,实际情况要复杂一些,我这里精简然后转换了一下,便于理解),而数仓的目标表是将分类和商品分别存储在不同的表中,大致结构如下。

那为什么需要进行这样的转换呢? 这是因为整个大的系统,一般来说只能定义一些基本的规范,而具体的细节规范则无法约束,比如A系统的身份证字段名称为card_no,而B系统的身份证字段名称为crdt_no(这种情况大家应该经常遇到);再比如处理实体关系的时候,处理方式也是不同的,1对1的关系,可以建两张表关联,也可以一张表都存储,这就造成了多个系统的不统一性,而这种情况是不可避免的,因为从业务系统来说,都保证了系统的正常运行。

而数仓对多个原始数据处理的时候就需要考虑到兼容的问题,所以就会出现如上图的转换过程。

而这个任务执行3个小时的原因在于原始表中的一条记录,会转换到数仓表中的三张表中,而且这三张表是通过id进行关联,整个代码流程如下。

然而问题来了,100万的数据,跑了3个小时,然后我开始尝试去优化程序的执行流程,大概从一下几点入手

  1. 将分类缓存,分类在系统中已经固定,不会发生变化,缓存可以减少查询数据库的次数
  2. 每次从原表中读取的数据更多,从原来的500/次 -> 2000/次

经过优化,效率有一些提升,但并不是很明显(有同学可能要问了,这些都是很基本的,为什么最开始做? 咳咳。。。这个嘛,历史原因吧,在最开始数据可能不多,不论以什么方式执行,都差别不大,比如执行10分钟和执行20分钟,看似2倍的执行效率,但是由于没有影响到业务系统,且一直正常运行,也就没有看出问题)。

这里数据是需要关联的,所以我们是需要插入数据并拿到这条记录的自增长id,然后插入到关联表,而表结构基本不可能去动的(表结构动了那真是牵一发而动全身了,第二天准得被叫去喝茶)。

那么我们先来分析一下这里为什么执行这么慢呢。

  1. 原表100万的数据,每次查询出2000条,所以查询的总次数就是1000000/2000 = 500次,这肯定消耗不了多少时间。这里基本没有优化的空间,就算一次全部查询出来,也仅仅节省499次的查询时间(也不可能一次查询这么多数据)
  2. 查询的2000条数据,数据转换,然后依次插入到信息表以及关联表中,这里是一条一条解析执行的,总计插入数据库4000次,毫无疑问,这里是最耗时的。数据转换是必须的,而且是在内存中操作,所以耗时不是特别多;那么剩下的就是总计100万 * 2的数据库插入次数,能否进行优化呢?

首先想到的就是批量插入,批量插入可以有效的降低数据库访问次数。但是这里不能进行批量插入是因为需要取到自增长id,感觉陷入了困境。

当天晚上昨晚运动之后,抛开烦恼,觉得浑身舒坦。

突然,脑袋灵光一闪,数据库的自增长id是由数据库控制的数值,而自增长的步长我们是知道的,比如自增长步长为1,当前自增长id为1的话,那么可以肯定,下一条记录的自增长id就为2,以此类推。

那是否可以插入一条记录,取到自增长id,然后就可以计算出之后所有数据的自增长id,而不再需要每条记录都去取自增长id了。

但是这样也有一个问题,就是在数据转换导入的过程中,不能有其他的程序向表中插入数据,不然会导致程序计算的自增长id匹配不上。而这个问题根本不存在,因为数仓的数据都是由原始表计算插入的,在同一时间是没有其他的任务写这张表,那么我们就可以放心大胆的干了。

我将这一部分逻辑抽象出来做成了一个demo,并填充了100万的数据,优化前的核心代码如下:

private void exportSource(){
List sources;
//刷新日期, 这里属性作为日期, 其实应该以局部变量当作参数传递会更好,原谅我偷个懒
date = new Date();
int pageNum = 1;
do{
sources = sourceService.selectList(pageNum++, pageSize);
System.out.println(sources);
for (Source source : sources) {
//数据转换
Target transfer = transfer(source);
//插入数据,返回自增长id
targetService.insert(transfer);
TargetCategory targetCategory = new TargetCategory();
Category category = allCategory.get(source.getCategoryName());
if(category != null){
targetCategory.setCategoryId(category.getId());
}
targetCategory.setTargetId(transfer.getId());
//插入分类数据
targetCategoryService.insert(targetCategory);
}
}while(sources.size() > 0);
}

效率就不说了,我跑了1个小时,差不多跑了20万的数据(预计总运行时间大于5小时),然后没继续跑了,在这个基础上做了优化。

private void exportSourcev2(){
List sources;
//刷新日期, 这里属性作为日期, 其实应该以局部变量当作参数传递会更好,原谅我偷个懒
date = new Date();
int pageNum = 1;
Integer startId = 0;
do{
sources = sourceService.selectList(pageNum++, pageSize);
List sourceList = new ArrayList();
List targetCategoryList = new ArrayList();
for (Source source : sources) {
//数据转换
Target transfer = transfer(source);
//第一次,取出自增长id,后面就直接计算
if(startId == 0){
//插入数据,返回自增长id
targetService.insert(transfer);
startId = transfer.getId();
}else{
startId++;
sourceList.add(transfer);
}
TargetCategory targetCategory = new TargetCategory();
Category category = allCategory.get(source.getCategoryName());
if(category != null){
targetCategory.setCategoryId(category.getId());
}
targetCategory.setTargetId(transfer.getId());
targetCategoryList.add(targetCategory);
}
if(sourceList.size() > 0){
targetService.insertBatch(sourceList);
}
if(targetCategoryList.size() > 0){
targetCategoryService.insertBatch(targetCategoryList);
}
}while(sources.size() > 0);
}

从测试结果来看,执行时间已经大大降低,从至少5小时的运行时间缩短到12分钟不到。

最后

对于很多Java工程师而言,想要提升技能,往往是自己摸索成长,不成体系的学习效果低效漫长且无助。

整理的这些资料希望对Java开发的朋友们有所参考以及少走弯路,本文的重点是你有没有收获与成长,其余的都不重要,希望读者们能谨记这一点。

再分享一波我的Java面试真题+视频学习详解+技能进阶书籍

美团二面惜败,我的凉经复盘(附学习笔记+面试整理+进阶书籍)

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)收录**

需要这份系统化的资料的朋友,可以点击这里获取

  • 12
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值