hive group by | distinct区别以及性能比较

本文探讨了Hive中DISTINCT操作在低版本和高版本间的执行差异,指出低版本通过全局唯一Reduce去重,而高版本优化后与GROUP BY类似。对比了两个操作的执行计划和性能,强调了高版本Hive对distinct的改进。
摘要由CSDN通过智能技术生成
select distinct a from t1;
select a from t1 group by a;

低版本hive

执行计划:

# distinct
Stage-Stage-1: Map: 396 Reduce: 1 Cumulative CPU: 7915.67 sec HDFS Read: 119072894175 HDFS Write: 10 SUCCESS

# group by
Stage-Stage-1: Map: 396 Reduce: 457 Cumulative CPU: 10056.7 sec HDFS Read: 119074266583 HDFS Write: 53469 SUCCESS

默认情况下,distinct会被hive翻译成一个全局唯一reduce任务来做去重操作,因而并行度为1
而group by则会被hive翻译成分组聚合运算,会有多个reduce任务并行处理,每个reduce对收到的一部分数据组,进行每组聚合(去重)

高版本hive

高版本的hive,对distinct进行了优化,其执行计划和group by的一样,已经不会出现低版本的一个reduce现象,运行时间也相差无几。(已知hive2.3.0 已优化)
但是不明确用的hive版本是否优化了distinct的情况下,用group by 进行去重是不会有问题的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TriumPhSK

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值