hivesql小技巧汇总

排序技巧–distribute by 与sort by 配合使用代替 order by

order by:将结果按某个字段全局排序,导致所有map端数据都进入一个reduce中,在数据量大时可能会长时间计算不完。

sort by:会视情况启动多个reducer进行排序,并且保证每个reducer内局部有序。为了控制map端数据分配到reduce的key,往往还要配合distribute by一同使用均匀分配数据。如果不加distribute by的话,map端数据就会随机分配给reducer。
 

去重技巧-- 用 group by 代替 distinct

distinct :放在一台服务器上最后使用一个reduce去执行
group by :多台服务器一起执行

聚合技巧–grouping sets、cube、rollup
1.grouping sets

场景:做用户画像时,要看用户的性别分布,城市分布,等级分布等等,虽然可以拆分开来写,然后通过union all将数据拼起来,但是效率比较低,这时候就可以使用grouping sets;
聚合规则在括号中进行指定,未被GROUP BY的列将显示为NULL;

 

2.cube(如果无类似需求,不建议直接使用cube进行全分组)
场景:如果要看性别、城市、等级的各种组合的用户分布,这个时候如果用grouping sets括号内就要写很长,比如 GROUPING SETS ( sex ,city ,level, ( sex,city ) ,( sex ,level) , ( city , level ) , ( sex,city , level ) ) ,这个时候就可以使用cube。

 

3.rollup
场景:字段之间有强关联,比如时间,年的下面有细分的月,月下面有细分的天,比如要算每个月的支付金额以及每年的总支付金额,此时就可以用rollup。

rollup:以最左侧的维度为主,进行层级聚合,是cube的子集。

4.灰度分布

histogram_numeric( 列,100),可对具体列进行灰度直方图分布分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值