count(distinct colA)与group by

最新推荐文章于 2024-02-05 14:15:27 发布

周一竟然读博了

最新推荐文章于 2024-02-05 14:15:27 发布

阅读量148

点赞数

分类专栏：大数据开发文章标签： hive

本文链接：https://blog.csdn.net/bbbbobbb/article/details/108098670

版权

大数据开发专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在传统关系型数据库中，group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明白什么意思。

count(distinct colA)的操作也可以用group by的方式完成，具体代码如下：

select count(distinct colA) from table1;
select count(1) from (select colA from table1 group by colA)alias_1;

这两者最后得出的结果是一致的，但是具体的实现方式，有什么不同呢？
上面两种方式本质就是时间与空间的权衡。
distinct需要将colA中的所有内容都加载到内存中，大致可以理解为一个hash结构，key自然就是colA的所有值。因为是hash结构，那运算速度自然就快。最后计算hash中有多少key就是最终的结果。
那么问题来了，在现在的海量数据环境下，需要将所有不同的值都存起来，这个内存消耗，是可想而知的。所以如果数据量特别大，可能会out of memory。。。
group by的实现方式是先将colA排序。排序大家都不陌生，拿最见得快排来说，时间复杂度为O(nlogn),而空间复杂度只有O(1)。这样一来，即使数据量再大一些，group by基本也能hold住。但是因为需要做一次O(nlogn) 的排序，时间自然会稍微慢点。。。
总结起来就是，count(distinct)吃内存，查询快；group by空间复杂度小，在时间复杂度允许的情况下，可以发挥他的空间复杂度优势。

转载侵删！！！

周一竟然读博了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
count(distinct colA)与group by

在传统关系型数据库中，group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明白什么意思。count(distinct colA)的操作也可以用group by的方式完成，具体代码如下：select count(distinct colA) from table1;select count(1) from (select colA from table1 group by col
复制链接

扫一扫

专栏目录