作者:李呈祥,花名司麟),阿里巴巴计算平台事业部EMR团队的高级技术专家,Apache Hive Committer, Apache Flink Committer,深度参与了Hadoop,Hive,Spark,Flink等开源项目的研发工作,对于SQL引擎,分布式系统有较为深入的了解和实践,目前主要专注于EMR产品中开源计算引擎的优化工作。
背景
Count Distinct是SQL查询中经常使用的聚合统计方式,用于计算非重复结果的数目。由于需要去除重复结果,Count Distinct的计算通常非常耗时。
以如下查询为例,Count Distinct的实现方式主要有两种:
SELECT region, COUNT(DISTINCT userId) FROM orders GROUP BY region
对订单表的数据按照region进行shuffle分区,在每个分区中使用一个类似HashTable的数据结构,存储所有的非重复userId的值,最后统计所有key的数量。
对表t的数据按照(region, userId)进行shuffle分区,第一步的结果即为非重复的(region, userId)对,对于第一步的结果再按照region分区,统计每个分区中的Row数量。
第一种方式只需要一次shuffle,但是需要在内存中维护一个数据结构,占用大量内存,甚至导致OOM。第二种方式多了一次shuffle,但是更加稳定可靠。Spark采用第二种方式实现Count Distinct。在多维分析或报表等场景中,用户可能需要秒级的交互响应,在大数据量的情况下,很难通过单纯地扩充资源满足要求。本文主要介绍在Spark中如何基于重聚合实现交互式响应的COUNT DISTINCT支持。
预聚合和重聚合
预计算是数据仓库领域常见的一种提升查询效率的方式,通过将全部或部分计算结果提前计算好并存储下来,对于后续的相关的查询可以直接重用之前的预计算结果,从而加速查询速度。在多维分析或报表等查询模式相对比较固定的场景中,我们可以通过预聚合,将需要处理的数据量下降成百上千倍。此外对于预计算来说,由于用户的查询维度,过滤条件,统计方式非常多,考虑到预计算的计算和存储代价