编码方式实现Split Distinct Aggregation功能

最新推荐文章于 2023-04-12 11:37:15 发布

pucheung

最新推荐文章于 2023-04-12 11:37:15 发布

阅读量453

点赞数

文章标签： flink 区块链大数据 spark 数据分析

本文链接：https://blog.csdn.net/u013516966/article/details/114052265

版权

本文详细介绍了Split Distinct Aggregation的原理及在Flink中的应用，通过代码展示了如何实现分桶去重功能，同时讨论了数据倾斜情况下的优化思路，包括使用MapState和ProcessFunction进行去重和撤回操作。

摘要由CSDN通过智能技术生成

前言

去重指标作为业务分析里面的一个重要指标，不管是在OLAP存储引擎还是计算引擎都对其实现做了大量工作，在面对不同的数据量、指标精确性要求，都有不同的实现方式，但是总体都逃脱不了硬算、两阶段方式、bitmap、hll等这些实现。本文将分析Split Distinct Aggregation实现原理与使用代码方式实现其功能。

Split Distinct Aggregation

如果要使用Sql去实现一个去重功能，通常会这样实现：

SELECT day, COUNT(DISTINCT user_id) FROM T  GROUP BY day --sql1

或者

select day,count(*) from(
     select distinct user_id,day from T ) a
group by day     --sql2

在之前的去重系列中SQL方式去重中也对这两种实现方式进行了分析，但是这两种方式都未解决计算热点问题，例如当某一个day 对应的devId 特别大的情况下，那么计算压力都会到该day所在的task，使这个task成为任务的性能瓶颈。

Split Distinct Aggregation是从Flink-1.9版本开始提供的一个对去重的优化功能，该功能必须在Blink planner下并且配置:

val tEnv: TableEnvironment = ...
tEnv.getConfig.getConfiguration .setString("table.optimizer.distinct-agg.split.enabled", "true")

那么sql1 在其内部会转换为

SELECT day, SUM(cnt)
FROM (
    SELECT day, COUNT(DISTINCT user_id) as cnt
    FROM T
    GROUP BY day, MOD(HASH_CODE(user_id), 1024)
)
GROUP BY day

MOD(HASH_CODE(user_id), 1024) 表示对取user_id的hashCode然后对1024取余，也就是将user_id划分到1024个桶里面去，那么里层通过对day与桶编号进行去重(cnt)外层只需要对cnt执行sum操作即可，因为分桶操作限制了相同的user_id 一定会在相同的桶里面，执行效果图如下：

我们也通过tabEnv.explain方式打印执行计划验证一下是否是真的这样执行：

Stage 5 : Operator                                          
content : Calc(select=[status, devId, (HASH_CODE(devId) MOD 1024) AS $f2])


Stage 7 :

最低0.47元/天解锁文章

pucheung

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫