hive的相关优化

1、列裁剪、分区裁剪

在查询的过程中减少不必要的分区和列,例如:

select * from shuidi_dwb.dwb_cf_case_info_full_d

应改为:

select case_id,ckr_id from shuidi_dwb.dwb_cf_case_info_full_d where dt='2019-08-28';

2、尽早尽量过滤数据,减少每个阶段的数据量

在多次关联的时候,尽量在每个自查询中(关联前)加上筛选(where)条件以减少下阶段job的数据量。

优化前:SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

优化后:SELECT a.val, b.val FROM
(select key,val from a where a.ds=‘2009-07-07’ ) x LEFT OUTER JOIN
(select key,val from b where b.ds=‘2009-07-07’ ) y ON x.key=y.key

3、:善用multi-insert:

#查询了两次a
insert overwrite table tmp1
select ... from a where 条件1;
insert overwrite table

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值