distinct去重多个字段_如何在Spark中实现Count Distinct重聚合

作者:李呈祥,花名司麟),阿里巴巴计算平台事业部EMR团队的高级技术专家,Apache Hive Committer, Apache Flink Committer,深度参与了Hadoop,Hive,Spark,Flink等开源项目的研发工作,对于SQL引擎,分布式系统有较为深入的了解和实践,目前主要专注于EMR产品中开源计算引擎的优化工作。


背景

Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。

以如下查询为例,Count Distinct的实现方式主要有两种:

SELECT region, COUNT(DISTINCT userId) FROM orders GROUP BY region
  1. 对订单表的数据按照region进行shuffle分区,在每个分区中使用一个类似HashTable的数据结构,存储所有的非重复userId的值,最后统计所有key的数量。

  2. 对表t的数据按照(region, userId)进行shuffle分区,第一步的结果即为非重复的(region, userId)对,对于第一步的结果再按照region分区,统计每个分区中的Row数量。

第一种方式只需要一次shuffle,但是需要在内存中维护一个数据结构,占用大量内存,甚至导致OOM。第二种方式多了一次shuffle,但是更加稳定可靠。Spark采用第二种方式实现Count Distinct。在多维分析或报表等场景中,用户可能需要秒级的交互响应,在大数据量的情况下,很难通过单纯地扩充资源满足要求。本文主要介绍在Spark中如何基于重聚合实现交互式响应的COUNT DISTINCT支持。

预聚合和重聚合

预计算是数据仓库领域常见的一种提升查询效率的方式,通过将全部或部分计算结果提前计算好并存储下来,对于后续的相关的查询可以直接重用之前的预计算结果,从而加速查询速度。在多维分析或报表等查询模式相对比较固定的场景中,我们可以通过预聚合,将需要处理的数据量下降成百上千倍。此外对于预计算来说,由于用户的查询维度,过滤条件,统计方式非常多,考虑到预计算的计算和存储代价

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值