hive group by | distinct区别以及性能比较

最新推荐文章于 2024-07-30 09:01:20 发布

TriumPhSK

最新推荐文章于 2024-07-30 09:01:20 发布

阅读量1.9k

点赞数 4

分类专栏：大数据个人总结文章标签： hive

本文链接：https://blog.csdn.net/qq_38821502/article/details/117957915

版权

大数据同时被 2 个专栏收录

22 篇文章 1 订阅

订阅专栏

个人总结

11 篇文章 0 订阅

订阅专栏

本文探讨了Hive中DISTINCT操作在低版本和高版本间的执行差异，指出低版本通过全局唯一Reduce去重，而高版本优化后与GROUP BY类似。对比了两个操作的执行计划和性能，强调了高版本Hive对distinct的改进。

摘要由CSDN通过智能技术生成

select distinct a from t1;
select a from t1 group by a;

低版本hive

执行计划：

# distinct
Stage-Stage-1: Map: 396 Reduce: 1 Cumulative CPU: 7915.67 sec HDFS Read: 119072894175 HDFS Write: 10 SUCCESS

# group by
Stage-Stage-1: Map: 396 Reduce: 457 Cumulative CPU: 10056.7 sec HDFS Read: 119074266583 HDFS Write: 53469 SUCCESS

默认情况下，distinct会被hive翻译成一个全局唯一reduce任务来做去重操作，因而并行度为1
而group by则会被hive翻译成分组聚合运算，会有多个reduce任务并行处理，每个reduce对收到的一部分数据组，进行每组聚合（去重）

高版本hive

高版本的hive，对distinct进行了优化，其执行计划和group by的一样，已经不会出现低版本的一个reduce现象，运行时间也相差无几。（已知hive2.3.0 已优化）
但是不明确用的hive版本是否优化了distinct的情况下，用group by 进行去重是不会有问题的。

TriumPhSK

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录