1,数据量大
建议核查SQL逻辑,限制分区,过滤冗余数据,拆解任务分批次执行。
参数设置对大数据量进行分区裁剪、列裁剪、谓词下推
2,小文件多
小文件过多造成执行过程中的拉取文件的大量随机读,带来任务延迟。
3,数据倾斜
1,可以舍弃热点数据,稀疏的key数据与密集的key数据分开计算,避免木桶效应,拖长任务执行时长。
2,mapjoin实现广播的小表链接大表,来提升链接的效率。例如:select /*+ MAPJOIN(a) */
3,大表热点数据在key上拼接0~n的前缀/后缀,同时小表冗余扩大n倍数据,保证join到对应键值,然后去掉前缀/后缀。
4,a left join b 可以转换为:b left join a 加 union,基于维度对指标进行聚合函数封装。
5,谨慎使用笛卡尔积:需要过滤链接条件中的NULL值:解决方法1:NULL不参与关联,解决方法2:给空值分配随机的key值
6,两阶段聚合(局部聚合+全局聚合)