Java面试资料集合，，快来瞧瞧这份Spring面试小抄

最新推荐文章于 2024-06-12 11:59:04 发布

开摆

最新推荐文章于 2024-06-12 11:59:04 发布

阅读量731

点赞数 26

分类专栏：程序员文章标签： java 面试 spring

本文链接：https://blog.csdn.net/2303_77877769/article/details/136590921

版权

程序员专栏收录该内容

746 篇文章 0 订阅

订阅专栏

系统介绍

整个系统可以从功能上分为3块：

业务系统：在上游有很多的业务系统，业务系统的运行产生很多的数据，这些数据分散在很多的数据库中，大部分是MySQL数据库
数据智能平台：数据智能平台属于中台系统，主要为业务系统提供强大的数据支撑服务，下层连接数仓。
数据仓库：数据仓库统一集中的管理所有的数据，数仓会将业务系统产生的数据按天进行加工、抽取、转换到数据仓库存储。

当一天结束后，各个业务系统产生了大量的数据，这些数据由定时任务进行加工、抽取到数据仓库存储，当半夜你还在睡觉的时候，这些定时任务就在默默的运行着。

而每天加工的数据通常要求在上班工作时间之前加工完成，然后通过数据智能平台的查询系统供业务系统查询调用，这一次数据没有查询到是因为在第二天早上10点，数据还没有加工完成。下面就是找问题优化了，因为正常来讲，即使定时任务链再长，也不会慢到第二天10点钟数据还没有出来。下面就是找问题，然后进行优化了。

任务优化

通过任务日志发现有一个上游系统的数据抽取执行时间有3个小时，而数据量仅100万。当然，光凭这样还无法确定这个任务是否是可以被优化的。

查看任务代码，逻辑还比较简单：有一张原始数据表，记录商品信息以及定义的分类(这一点是虚构的，实际情况要复杂一些，我这里精简然后转换了一下，便于理解)，而数仓的目标表是将分类和商品分别存储在不同的表中，大致结构如下。

那为什么需要进行这样的转换呢？这是因为整个大的系统，一般来说只能定义一些基本的规范，而具体的细节规范则无法约束，比如A系统的身份证字段名称为card_no,而B系统的身份证字段名称为crdt_no(这种情况大家应该经常遇到)；再比如处理实体关系的时候，处理方式也是不同的，1对1的关系，可以建两张表关联，也可以一张表都存储，这就造成了多个系统的不统一性，而这种情况是不可避免的，因为从业务系统来说，都保证了系统的正常运行。

而数仓对多个原始数据处理的时候就需要考虑到兼容的问题，所以就会出现如上图的转换过程。

而这个任务执行3个小时的原因在于原始表中的一条记录，会转换到数仓表中的三张表中，而且这三张表是通过id进行关联，整个代码流程如下。

然而问题来了，100万的数据，跑了3个小时，然后我开始尝试去优化程序的执行流程，大概从一下几点入手

将分类缓存，分类在系统中已经固定，不会发生变化，缓存可以减少查询数据库的次数
每次从原表中读取的数据更多，从原来的500/次 -> 2000/次

经过优化，效率有一些提升，但并不是很明显(有同学可能要问了，这些都是很基本的，为什么最开始做？咳咳。。。这个嘛，历史原因吧，在最开始数据可能不多，不论以什么方式执行，都差别不大，比如执行10分钟和执行20分钟，看似2倍的执行效率，但是由于没有影响到业务系统，且一直正常运行，也就没有看出问题)。

这里数据是需要关联的，所以我们是需要插入数据并拿到这条记录的自增长id，然后插入到关联表，而表结构基本不可能去动的(表结构动了那真是牵一发而动全身了，第二天准得被叫去喝茶)。

那么我们先来分析一下这里为什么执行这么慢呢。

原表100万的数据，每次查询出2000条，所以查询的总次数就是1000000/2000 = 500次，这肯定消耗不了多少时间。这里基本没有优化的空间，就算一次全部查询出来，也仅仅节省499次的查询时间(也不可能一次查询这么多数据)
查询的2000条数据，数据转换，然后依次插入到信息表以及关联表中，这里是一条一条解析执行的，总计插入数据库4000次，毫无疑问，这里是最耗时的。数据转换是必须的，而且是在内存中操作，所以耗时不是特别多；那么剩下的就是总计100万 * 2的数据库插入次数，能否进行优化呢？

首先想到的就是批量插入，批量插入可以有效的降低数据库访问次数。但是这里不能进行批量插入是因为需要取到自增长id，感觉陷入了困境。

当天晚上昨晚运动之后，抛开烦恼，觉得浑身舒坦。

突然,脑袋灵光一闪，数据库的自增长id是由数据库控制的数值，而自增长的步长我们是知道的，比如自增长步长为1，当前自增长id为1的话，那么可以肯定，下一条记录的自增长id就为2，以此类推。

那是否可以插入一条记录，取到自增长id，然后就可以计算出之后所有数据的自增长id，而不再需要每条记录都去取自增长id了。

但是这样也有一个问题，就是在数据转换导入的过程中，不能有其他的程序向表中插入数据，不然会导致程序计算的自增长id匹配不上。而这个问题根本不存在，因为数仓的数据都是由原始表计算插入的，在同一时间是没有其他的任务写这张表，那么我们就可以放心大胆的干了。

先自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则近万的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《Java开发全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以扫码领取！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Kafka实战笔记

关于这份笔记，为了不影响大家的阅读体验，我只能在文章中展示部分的章节内容和核心截图

Kafka入门
为什么选择Kafka
Karka的安装、管理和配置

Kafka的集群
第一个Kafka程序

afka的生产者

Kafka的消费者
深入理解Kafka
可靠的数据传递

Spring和Kalka的整合
Sprinboot和Kafka的整合
Kafka实战之削峰填谷
数据管道和流式处理(了解即可)

Kafka实战之削峰填谷

流式处理(了解即可)**

[外链图片转存中…(img-TbZnhaIR-1709989393941)]

Kafka实战之削峰填谷

[外链图片转存中…(img-ccbW4gBx-1709989393941)]

需要更多Java资料的小伙伴可以帮忙点赞+关注，点击传送门，即可免费领取！

开摆

关注

26
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Java面试资料集合，，快来瞧瞧这份Spring面试小抄

当一天结束后，各个业务系统产生了大量的数据，这些数据由定时任务进行加工、抽取到数据仓库存储，当半夜你还在睡觉的时候，这些定时任务就在默默的运行着。而每天加工的数据通常要求在上班工作时间之前加工完成，然后通过数据智能平台的查询系统供业务系统查询调用，这一次数据没有查询到是因为在第二天早上10点，数据还没有加工完成。下面就是找问题优化了，因为正常来讲，即使定时任务链再长，也不会慢到第二天10点钟数据还没有出来。下面就是找问题，然后进行优化了。
复制链接

扫一扫