浅议基于离线历史数据结合Flink获得长周期聚合指标的实现方案

最新推荐文章于 2025-03-20 10:11:27 发布

HuailiShang

最新推荐文章于 2025-03-20 10:11:27 发布

阅读量477

点赞数 4

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HuailiShang/article/details/136856847

版权

本文介绍了在某些场景中如何通过结合实时Flink和批量Hive计算，实现长周期的客户累计金额聚合指标。通过实时Flink计算近两天的增量，与Hive提前计算的六个月累积值相结合，以提供实时且稳定的累计数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、需求场景及可行方案

在一些应用场景中会遇到计算"最近6个月的每个客户的累计金额"这类长周期的聚合指标。

这种长周期的聚合指标不能由实时Flink或者批量hive单一的处理链路来实现。对于实时Flink,考虑到大状态的保存和任务出错从头消费，一般只计算最近几天的累计值。对于批量hive，上游数据的时效性最高只能到T-1，不能计算今天的数据累计值。

故鉴于考虑批量产出数据的稳定性，以上述的聚合指标为例，这种场景下一般是批量Hive计算[6个月前，T-2]的累计值并推至Hbase以供实时作为维表使用，实时Flink计算[T-1,T]的累计值。两部分数据再想累加获取[6个月前，T]的累计值。

参考如下简图，批量&实时的两个绿色框或者两个蓝色框累积可获得 [6个月前，T]的累计值。

二、实时部分的实现步骤

在上一部分探讨的方案中，批量Hive计算[6个月前，T-2]的累计值实现相对容易。下面讨论"实时计算[T-1,T]的累积值"的实现步骤。

参考如下博客中的思路，实时计算 [T日 +T-1日] 增量数据，T-1日数据既会参与T-1日的实时计算，也会参与T日的计算，会被用到两次（即如上图所示，24号的数据既要参与24日当日的实时计算，也要参与25号的实时计算）。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。