distinct去重多个字段_如何在Spark中实现Count Distinct重聚合

最新推荐文章于 2022-08-25 13:47:21 发布

weixin_39598501

最新推荐文章于 2022-08-25 13:47:21 发布

阅读量1.7k

点赞数

文章标签： distinct去重多个字段 distinct多个字段去重 distinct对两个字段去重 group by只去重一个字段 oracle distinct 去重多个字段 oracle distinct去重一个字段

作者：李呈祥，花名司麟)，阿里巴巴计算平台事业部EMR团队的高级技术专家，Apache Hive Committer， Apache Flink Committer，深度参与了Hadoop，Hive，Spark，Flink等开源项目的研发工作，对于SQL引擎，分布式系统有较为深入的了解和实践，目前主要专注于EMR产品中开源计算引擎的优化工作。

背景

Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。

以如下查询为例，Count Distinct的实现方式主要有两种：

SELECT region, COUNT(DISTINCT userId) FROM orders GROUP BY region

对订单表的数据按照region进行shuffle分区，在每个分区中使用一个类似HashTable的数据结构，存储所有的非重复userId的值，最后统计所有key的数量。
对表t的数据按照(region, userId)进行shuffle分区，第一步的结果即为非重复的(region, userId)对，对于第一步的结果再按照region分区，统计每个分区中的Row数量。

第一种方式只需要一次shuffle，但是需要在内存中维护一个数据结构，占用大量内存，甚至导致OOM。第二种方式多了一次shuffle，但是更加稳定可靠。Spark采用第二种方式实现Count Distinct。在多维分析或报表等场景中，用户可能需要秒级的交互响应，在大数据量的情况下，很难通过单纯地扩充资源满足要求。本文主要介绍在Spark中如何基于重聚合实现交互式响应的COUNT DISTINCT支持。

预聚合和重聚合

预计算是数据仓库领域常见的一种提升查询效率的方式，通过将全部或部分计算结果提前计算好并存储下来，对于后续的相关的查询可以直接重用之前的预计算结果，从而加速查询速度。在多维分析或报表等查询模式相对比较固定的场景中，我们可以通过预聚合，将需要处理的数据量下降成百上千倍。此外对于预计算来说，由于用户的查询维度，过滤条件，统计方式非常多，考虑到预计算的计算和存储代价

最低0.47元/天解锁文章

weixin_39598501

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
distinct去重多个字段_如何在Spark中实现Count Distinct重聚合

作者：李呈祥，花名司麟)，阿里巴巴计算平台事业部EMR团队的高级技术专家，Apache Hive Committer， Apache Flink Committer，深度参与了Hadoop，Hive，Spark，Flink等开源项目的研发工作，对于SQL引擎，分布式系统有较为深入的了解和实践，目前主要专注于EMR产品中开源计算引擎的优化工作。背景Count Distinct是SQL查询中...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。