hive grouping sets 实现原理

最新推荐文章于 2023-12-13 22:04:49 发布

weixin_30735745

最新推荐文章于 2023-12-13 22:04:49 发布

阅读量489

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/jiangxiaoxian/p/9695291.html

版权

hive grouping sets 实现原理

先下结论：

看了hive 1.1.0 grouping sets 实现（从源码及执行计划都可以看出与kylin实现不一样），（前提是可累加，如sum函数）他并没有像kylin一样先按照group by 全字段聚合再上卷。
hive实现就是无脑复制，可以理解成是 group by grouping sets 所有组合然后在union 起来（grouping sets会比后者少扫描grouping sets组合份原始数据。
tez和sparksql grouping sets之所以快可能是跟kylin实现差不多，先汇总再上卷来减少数据无脑复制成本，这个spark实现有空可以看看）

从执行计划就可以看出 hive grouping sets 实现相当于就一个stage，是做不到先聚合再上卷的。其实就是把原始数据复制grouping sets 组合份

posted on 2018-09-24 13:05 姜小嫌阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/jiangxiaoxian/p/9695291.html

weixin_30735745

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive grouping sets 实现原理

hive grouping sets 实现原理先下结论：看了hive 1.1.0 grouping sets 实现（从源码及执行计划都可以看出与kylin实现不一样），（前提是可累加，如sum函数）他并没有像kylin一样先按照group by 全字段聚合再上卷。hive实现就是无脑复制，可以理解成是 group by grouping...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。