#hive#hive中的Distinct,group by

本文探讨了在Hive中进行数据去重的方法,包括使用DISTINCT和GROUP BY的区别。DISTINCT在小数据量时方便快捷,但大数据量下,特别是COUNT(DISTINCT A)操作,效率较低。GROUP BY可以聚合数据,但不加额外字段时无法实现完全去重。
摘要由CSDN通过智能技术生成

Select一些数据时候,会做一些去重处理,比如通过distinct 和group by来去重。

(1)distinct

distinct,在数据量不大的情况下,我都会用,主要自己懒的写group by  xxx这么多的字段,额。当数据量太大时候,特别是count(distinct A)的时候,处理的速度会比较慢。另,distinct和Group by一样,区别不大。

(2)group by

select custid,max(price) as price

from xx

group by custid;   --A


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值