优化前:sql比较简单,表中数据是700万左右,就是查出某个表的数据,放到另一个表,但是中间用到了一个udtf函数,关键在于函数逻辑复杂。之前由于没有做优化,所以硬跑下来,耗时85分钟左右,日志没有数据倾斜现象。时间过去太久,运行图已经覆盖没有了,这里就不放了优化方式:因为数据量不是很大,也没有数据倾斜,而且从运行日志中可以看出没有reduce过程,所以就关注了map,发现只开启了2个map,然后怀疑是因为map太少了,处理数据条数太多,所以就把参数设置的小一点,从而使map数增加到了15,相当于15个并行
优化结果:运行时长稳定在15分钟以内