浅议 基于离线历史数据 结合Flink获得长周期聚合指标的实现方案

本文介绍了在某些场景中如何通过结合实时Flink和批量Hive计算,实现长周期的客户累计金额聚合指标。通过实时Flink计算近两天的增量,与Hive提前计算的六个月累积值相结合,以提供实时且稳定的累计数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、需求场景及可行方案

在一些应用场景中会遇到 计算"最近6个月的每个客户的累计金额"这类长周期的聚合指标。

这种长周期的聚合指标不能由实时Flink或者批量hive单一的处理链路来实现。对于实时Flink,考虑到大状态的保存和任务出错从头消费,一般只计算最近几天的​累计值。对于批量hive,上游数据的时效性最高只能到T-1,不能计算今天的数据​累计值。

故鉴于考虑批量产出数据的稳定性,以上述的聚合指标为例,这种场景下一般是批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]​的累计值。两部分数据再想累加获取[6个月前,T]的累计值。

参考如下简图,批量&实时的两个绿色框 或者 两个蓝色框 累积可获得 [6个月前,T]的累计值。

二、实时部分的实现步骤

在上一部分探讨的方案中,批量Hive计算[6个月前,T-2]的累计值实现相对容易。下面讨论"实时计算[T-1,T]​的累积值"的实现步骤。

参考如下博客中的思路,实时计算 [T日 +T-1日] 增量数据,T-1日数据既会参与T-1日的实时计算,也会参与T日的计算,会被用到两次(即如上图所示,24号的数据既要参与24日当日的实时计算,也要参与25号的实时计算)。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值