浅议 基于离线历史数据 结合Flink获得长周期聚合指标的实现方案

一、需求场景及可行方案

在一些应用场景中会遇到 计算"最近6个月的每个客户的累计金额"这类长周期的聚合指标。

这种长周期的聚合指标不能由实时Flink或者批量hive单一的处理链路来实现。对于实时Flink,考虑到大状态的保存和任务出错从头消费,一般只计算最近几天的​累计值。对于批量hive,上游数据的时效性最高只能到T-1,不能计算今天的数据​累计值。

故鉴于考虑批量产出数据的稳定性,以上述的聚合指标为例,这种场景下一般是批量Hive计算[6个月前,T-2]的累计值并推至Hbase以供实时作为维表使用,实时Flink计算[T-1,T]​的累计值。两部分数据再想累加获取[6个月前,T]的累计值。

参考如下简图,批量&实时的两个绿色框 或者 两个蓝色框 累积可获得 [6个月前,T]的累计值。

二、实时部分的实现步骤

在上一部分探讨的方案中,批量Hive计算[6个月前,T-2]的累计值实现相对容易。下面讨论"实时计算[T-1,T]​的累积值"的实现步骤。

参考如下博客中的思路,实时计算 [T日 +T-1日] 增量数据,T-1日数据既会参与T-1日的实时计算,也会参与T日的计算,会被用到两次(即如上图所示,24号的数据既要参与24日当日的实时计算,也要参与25号的实时计算)。

基于Flink+ODPS历史累计计算项目分析与优化

​故可设计如下sql demo,实现"实时计算[T-1,T]的累积值"​。

-- source_kafk中三个字段含义:
-- CUST_ID:客户号
-- AMOUNT: 消费金额
-- TM    : 交易时间

create view view1 AS 
select TM
      ,AMOUNT
      ,CUST_ID
	  ,cast (TIMESTAMPADD (DAY,1, cast (TM as DATE) ) as string) as TM_1  --构造业务时间TM + 1day
	  ,proc_time --系统时间
from source_topic
;

--每条消息变成两条消息,内容完全一样只是时间字段会相差一天
create view view2 AS
select TM
      ,AMOUNT 
	  ,CUST_ID 
	  ,proc_time
from view1
union all 
select
       TM_1 as TM 
	  ,AMOUNT 
	  ,CUST_ID 
	  ,proc_time
from view1
;

--计算[T-1,T]累计值
create view view3 AS 
select TM
      ,AMOUNT 
	  ,CUST_ID 
	  ,sum (cast (v1.AMOUNT as DECIMAL(16,2))) OVER (partition by v1.TM, v1.CUST_ID order by v1.proc_time) as AMOUNT_SUM
from view2 v1
;

 测试数据如下

source_topic input1:    
{"CUST_ID":"11","AMOUNT":"10","TM":"2024-03-18"}

view2_Output:  
+-----------+--------+-------+
|   TM      | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-18 | 10	 | 11	 |
+-----------+--------+-------+

+-----------+--------+-------+
|   TM      | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-19 | 10	 | 11	 |
+-----------+--------+-------+


view3_Output:
+-----------+--------+-------+-------------+
|   TM      | AMOUNT |CUST_ID| AMOUNT_SUM  |      
+-----------+--------+-------+-------------+
|2024-03-18 | 10	 | 11	 | 10.0		   |
+-----------+--------+-------+-------------+

+-----------+--------+-------+-------------+
|   TM      | AMOUNT |CUST_ID| AMOUNT_SUM  |      
+-----------+--------+-------+-------------+
|2024-03-19 | 10	 | 11	 | 10.0		   |
+-----------+--------+-------+-------------+




source_topic input2:   
{"CUST_ID":"11","AMOUNT":"20","TM":"2024-03-19"}


view2_Output:
+-----------+--------+-------+
|   TM      | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-19 | 20	 | 11	 |
+-----------+--------+-------+

+-----------+--------+-------+
|   TM      | AMOUNT |CUST_ID|
+-----------+--------+-------+
|2024-03-20 | 20	 | 11	 |
+-----------+--------+-------+



view3_Output:
+-----------+--------+-------+-------------+
|   TM      | AMOUNT |CUST_ID| AMOUNT_SUM  |      
+-----------+--------+-------+-------------+
|2024-03-19 | 20	 | 11	 | 30.0		   |
+-----------+--------+-------+-------------+

+-----------+--------+-------+-------------+
|   TM      | AMOUNT |CUST_ID| AMOUNT_SUM  |      
+-----------+--------+-------+-------------+
|2024-03-20 | 20	 | 11	 | 20.0		   |
+-----------+--------+-------+-------------+

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Flink是一个开源的流处理框架,可以用于实时数据处理和批处理任务。在部署Flink时,可以选择使用standalone模式,即将Flink作为一个独立的集群部署在服务器上。 以下是使用standalone模式部署Flink的步骤: 1. 下载Flink:从Flink官方网站下载适合您服务器操作系统的二进制文件。 2. 解压文件:将下载的二进制文件解压到您选择的目录。 3. 配置环境变量:将Flink的bin目录添加到系统的PATH环境变量中,以便可以在任何位置运行Flink命令。 4. 配置Flink集群:编辑Flink的conf/flink-conf.yaml文件,设置集群的相关配置,如任务管理器的数量、内存分配等。 5. 启动Flink集群:在命令行中执行`./bin/start-cluster.sh`命令来启动Flink集群。 6. 访问Web界面:打开浏览器,访问http://localhost:8081,可以看到Flink的Web界面,用于监控和管理任务。 关于Flink CDC的离线部署,Flink CDC是Flink的一个插件,用于实现数据同步和变化捕获。离线部署Flink CDC需要以下步骤: 1. 下载Flink CDC:从Flink官方网站下载适合您Flink版本的Flink CDC插件。 2. 解压文件:将下载的插件解压到Flink的lib目录下。 3. 配置Flink CDC:编辑Flink的conf/flink-conf.yaml文件,设置Flink CDC的相关配置,如数据库连接信息、数据源和目标表等。 4. 启动Flink CDC:在命令行中执行`./bin/flink run -c com.alibaba.ververica.cdc.connectors.mysql.MySqlSource`命令来启动Flink CDC任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值