Hive中使用Distinct踩到的坑

问题描述

在使用Hive的过程中,用Distinct对重复数据进行过滤,得出了一个违背认知的结果,百思不得其解。

假设:test表中有100W数据,对test表按照a, b, c, d, e去重。

一、使用Distinct的SQL如下:

SQL1 :select count(distinct a, b, c, d, e) from test; 

得出结果: 2W+。

根据数据特点第一感觉,并不会有那么多重复数据,对自己的distinct使用产生了怀疑,因此用group by校验结果。

二、使用Group by的SQL如下:

SQL2 :select sum (gcount) from (select count(*) gcount from test group by  a, b, c, d, e) t

得出结果: 80W+。

这个结果是符合数据特点的;

三、修改SQL1,去掉一个字段;

SQL3:select count(distinct  b, c, d, e) from test; 

得出结果:90W+。

四、对比SQL1和 SQL3 

按照4个字段distinct 理论上一定比 5个字段distinct 结果少, 测试结果缺恰恰相反;

原因就是因为a列中包含null, 按我的认知以为所有的null值会被归结为同一个,可实际上hive并不会;

所以distinct的列中如果含有null值,会导致结果不准,需要将null值替换为一个统一的值

修改如下:

select count(distinct nvl(a, 0), b, c, d, e) from test; 

如上,问题解决! 

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值