一、需求场景及可行方案
在一些应用场景中会遇到 计算"最近6个月的每个客户的累计金额"这类长周期的聚合指标。
这种长周期的聚合指标不能由实时Flink或者批量hive单一的处理链路来实现。对于实时Flink,考虑到大状态的保存和任务出错从头消费,一般只计算最近几天的累计值。对于批量hive,上游数据的时效性最高只能到T-1,不能计算今天的数据累计值。
故鉴于考虑批量产出数据的稳定性,以上述的聚合指标为例,这种场景下一般是批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]的累计值。两部分数据再想累加获取[6个月前,T]的累计值。
参考如下简图,批量&实时的两个绿色框 或者 两个蓝色框 累积可获得 [6个月前,T]的累计值。
二、实时部分的实现步骤
在上一部分探讨的方案中,批量Hive计算[6个月前,T-2]的累计值实现相对容易。下面讨论"实时计算[T-1,T]的累积值"的实现步骤。
参考如下博客中的思路,实时计算 [T日 +T-1日] 增量数据,T-1日数据既会参与T-1日的实时计算,也会参与T日的计算,会被用到两次(即如上图所示,24号的数据既要参与24日当日的实时计算,也要参与25号的实时计算)。