一、需求场景及可行方案
在一些应用场景中会遇到 计算"最近6个月的每个客户的累计金额"这类长周期的聚合指标。
这种长周期的聚合指标不能由实时Flink或者批量hive单一的处理链路来实现。对于实时Flink,考虑到大状态的保存和任务出错从头消费,一般只计算最近几天的累计值。对于批量hive,上游数据的时效性最高只能到T-1,不能计算今天的数据累计值。
故鉴于考虑批量产出数据的稳定性,以上述的聚合指标为例,这种场景下一般是批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]的累计值。两部分数据再想累加获取[6个月前,T]的累计值。
参考如下简图,批量&实时的两个绿色框 或者 两个蓝色框 累积可获得 [6个月前,T]的累计值。
二、实时部分的实现步骤
在上一部分探讨的方案中,批量Hive计算[6个月前,T-2]的累计值实现相对容易。下面讨论"实时计算[T-1,T]的累积值"的实现步骤。
参考如下博客中的思路,实时计算 [T日 +T-1日] 增量数据,T-1日数据既会参与T-1日的实时计算,也会参与T日的计算,会被用到两次(即如上图所示,24号的数据既要参与24日当日的实时计算,也要参与25号的实时计算)。
故可设计如下sql demo,实现"实时计算[T-1,T]的累积值"。
-- source_kafk中三个字段含义:
-- CUST_ID:客户号
-- AMOUNT: 消费金额
-- TM : 交易时间
create view view1 AS
select TM
,AMOUNT
,CUST_ID
,cast (TIMESTAMPADD (DAY,1, cast (TM as DATE) ) as string) as TM_1 --构造业务时间TM + 1day
,proc_time --系统时间
from source_topic
;
--每条消息变成两条消息,内容完全一样只是时间字段会相差一天
create view view2 AS
select TM
,AMOUNT
,CUST_ID
,proc_time
from view1
union all
select
TM_1 as TM
,AMOUNT
,CUST_ID
,proc_time
from view1
;
--计算[T-1,T]累计值
create view view3 AS
select TM
,AMOUNT
,CUST_ID
,sum (cast (v1.AMOUNT as DECIMAL(16,2))) OVER (partition by v1.TM, v1.CUST_ID order by v1.proc_time) as AMOUNT_SUM
from view2 v1
;
测试数据如下
source_topic input1:
{"CUST_ID":"11","AMOUNT":"10","TM":"2024-03-18"}
view2_Output:
+-----------+--------+-------+
| TM | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-18 | 10 | 11 |
+-----------+--------+-------+
+-----------+--------+-------+
| TM | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-19 | 10 | 11 |
+-----------+--------+-------+
view3_Output:
+-----------+--------+-------+-------------+
| TM | AMOUNT |CUST_ID| AMOUNT_SUM |
+-----------+--------+-------+-------------+
|2024-03-18 | 10 | 11 | 10.0 |
+-----------+--------+-------+-------------+
+-----------+--------+-------+-------------+
| TM | AMOUNT |CUST_ID| AMOUNT_SUM |
+-----------+--------+-------+-------------+
|2024-03-19 | 10 | 11 | 10.0 |
+-----------+--------+-------+-------------+
source_topic input2:
{"CUST_ID":"11","AMOUNT":"20","TM":"2024-03-19"}
view2_Output:
+-----------+--------+-------+
| TM | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-19 | 20 | 11 |
+-----------+--------+-------+
+-----------+--------+-------+
| TM | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-20 | 20 | 11 |
+-----------+--------+-------+
view3_Output:
+-----------+--------+-------+-------------+
| TM | AMOUNT |CUST_ID| AMOUNT_SUM |
+-----------+--------+-------+-------------+
|2024-03-19 | 20 | 11 | 30.0 |
+-----------+--------+-------+-------------+
+-----------+--------+-------+-------------+
| TM | AMOUNT |CUST_ID| AMOUNT_SUM |
+-----------+--------+-------+-------------+
|2024-03-20 | 20 | 11 | 20.0 |
+-----------+--------+-------+-------------+