前言
去重指标作为业务分析里面的一个重要指标,不管是在OLAP存储引擎还是计算引擎都对其实现做了大量工作,在面对不同的数据量、指标精确性要求,都有不同的实现方式,但是总体都逃脱不了硬算、两阶段方式、bitmap、hll等这些实现。本文将分析Split Distinct Aggregation实现原理与使用代码方式实现其功能。
Split Distinct Aggregation
如果要使用Sql去实现一个去重功能,通常会这样实现:
SELECT day, COUNT(DISTINCT user_id) FROM T GROUP BY day --sql1
或者
select day,count(*) from(
select distinct user_id,day from T ) a
group by day --sql2
在之前的去重系列中SQL方式去重中也对这两种实现方式进行了分析,但是这两种方式都未解决计算热点问题,例如当某一个day 对应的devId 特别大的情况下,那么计算压力都会到该day所在的task,使这个task成为任务的性能瓶颈。
Split Distinct Aggregation是从Flink-1.9版本开始提供的一个对去重的优化功能,该功能必须在Blink planner下并且配置:
val tEnv: TableEnvironment = ...
tEnv.getConfig.getConfiguration .setString("table.optimizer.distinct-agg.split.enabled", "true")
那么sql1 在其内部会转换为
SELECT day, SUM(cnt)
FROM (
SELECT day, COUNT(DISTINCT user_id) as cnt
FROM T
GROUP BY day, MOD(HASH_CODE(user_id), 1024)
)
GROUP BY day
MOD(HASH_CODE(user_id), 1024) 表示对取user_id的hashCode然后对1024取余,也就是将user_id划分到1024个桶里面去,那么里层通过对day与桶编号进行去重(cnt)外层只需要对cnt执行sum操作即可,因为分桶操作限制了相同的user_id 一定会在相同的桶里面,执行效果图如下:
我们也通过tabEnv.explain方式打印执行计划验证一下是否是真的这样执行:
Stage 5 : Operator
content : Calc(select=[status, devId, (HASH_CODE(devId) MOD 1024) AS $f2])
Stage 7 :