最近有一个需求,是需要对线上的一些存量数据进行初始化,在投产当天,出现了性能问题,主要是使用了 update select 这种语法。
PS:使用的数据库是db2.
背景: 由于是银行信贷系统,部分表数据量比较大,需要关联(join)的表也比较多。
当时由于没有经验,直接使用update select 语法,而且 后面的 select 语句写的比较复杂(这个和当时需求有关系)。而且主要是需要关联到一个 流程数据表,这个流程数据表 的数据量比较大,百万级的数据。 当时直接关联这个表,以及其他的业务表,还做了分组排序等处理,导致执行效率很慢,超过了30分钟。
当时,第一反应是,对相关表进行了建立索引的处理。发现效果并不理想。 后来请教了一位前辈,给出的方案是: 对后面的select
逻辑进行拆分,将一些子查询,放到临时表,并对相关where字段建立索引。 然后在对对应的临时表进行update select,此时的select 语句都是简单的 select * from A inner join B on A.a=B.b 。 改造后,性能有明显提升,总时间在10分钟内完成。
在这次处理中,主要收获2点:
1.同样的数据量,insert select 比 update select 处理效率快。
2.对于负责的逻辑,可以对查询结果进行拆分,放到对应的临时表并建好索引,再进行update select 效率更好。分而治之。