hivesql小技巧汇总

最新推荐文章于 2024-07-18 16:32:46 发布

han_liwei

最新推荐文章于 2024-07-18 16:32:46 发布

阅读量81

点赞数

文章标签： sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/han_liwei/article/details/131491958

版权

排序技巧–distribute by 与sort by 配合使用代替 order by

order by：将结果按某个字段全局排序，导致所有map端数据都进入一个reduce中，在数据量大时可能会长时间计算不完。

sort by：会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reduce的key，往往还要配合distribute by一同使用均匀分配数据。如果不加distribute by的话，map端数据就会随机分配给reducer。

去重技巧-- 用 group by 代替 distinct

distinct ：放在一台服务器上最后使用一个reduce去执行
group by ：多台服务器一起执行

聚合技巧–grouping sets、cube、rollup
1.grouping sets

场景：做用户画像时，要看用户的性别分布，城市分布，等级分布等等，虽然可以拆分开来写，然后通过union all将数据拼起来，但是效率比较低，这时候就可以使用grouping sets;
聚合规则在括号中进行指定，未被GROUP BY的列将显示为NULL；

2.cube（如果无类似需求，不建议直接使用cube进行全分组）
场景：如果要看性别、城市、等级的各种组合的用户分布，这个时候如果用grouping sets括号内就要写很长，比如 GROUPING SETS ( sex ,city ,level, ( sex,city ) ,( sex ,level) , ( city , level ) , ( sex,city , level ) ) ，这个时候就可以使用cube。

3.rollup
场景：字段之间有强关联，比如时间，年的下面有细分的月，月下面有细分的天，比如要算每个月的支付金额以及每年的总支付金额，此时就可以用rollup。

rollup:以最左侧的维度为主，进行层级聚合，是cube的子集。

4.灰度分布

histogram_numeric( 列,100),可对具体列进行灰度直方图分布分析

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hivesql小技巧汇总

场景：如果要看性别、城市、等级的各种组合的用户分布，这个时候如果用grouping sets括号内就要写很长，比如 GROUPING SETS ( sex ,city ,level, ( sex,city ) ,( sex ,level) , ( city , level ) , ( sex,city , level ) ) ，这个时候就可以使用cube。场景：字段之间有强关联，比如时间，年的下面有细分的月，月下面有细分的天，比如要算每个月的支付金额以及每年的总支付金额，此时就可以用rollup。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。