Hive SQL作业执行慢,怎么解决

1,数据量大

建议核查SQL逻辑,限制分区,过滤冗余数据,拆解任务分批次执行。

参数设置对大数据量进行分区裁剪、列裁剪、谓词下推

2,小文件多

小文件过多造成执行过程中的拉取文件的大量随机读,带来任务延迟。

3,数据倾斜

1,可以舍弃热点数据,稀疏的key数据与密集的key数据分开计算,避免木桶效应,拖长任务执行时长。

2,mapjoin实现广播的小表链接大表,来提升链接的效率。例如:select /*+ MAPJOIN(a) */

3,大表热点数据在key上拼接0~n的前缀/后缀,同时小表冗余扩大n倍数据,保证join到对应键值,然后去掉前缀/后缀。

4,a left join b 可以转换为:b left join a 加 union,基于维度对指标进行聚合函数封装。

5,谨慎使用笛卡尔积:需要过滤链接条件中的NULL值:解决方法1:NULL不参与关联,解决方法2:给空值分配随机的key值

6,两阶段聚合(局部聚合+全局聚合)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值