Hive中使用Distinct踩到的坑
问题描述:在使用Hive的过程中,用Distinct对重复数据进行过滤,得出了一个违背认知的结果,百思不得其解。假设:test表中有100W数据,对test表按照a, b, c, d, e去重。一、使用Distinct的SQL如下:SQL1 :select count(distinct a, b, c, d, e) from test; 得出结果: 2W+。根据数据特点第...
原创
2018-12-24 17:57:30 ·
3549 阅读 ·
0 评论