第六章 基于dolphinscheduler的明细模型设计之拉链表(小表保留最近N次版本历史变化)

  • 本方案适合小表全量导入时
绪论、需求说明
  • 将ODS维表数据全量抽取到DIM层,保留数据最近一次历史变化状态
create table T_YYBZB_TGH_BANKINFO
(
  id        int(8),
  bank_id   int(8),
  bank_name varchar(200),
  source_date varchar(200)
);
insert into T_YYBZB_TGH_BANKINFO (ID, BANK_ID, BANK_NAME)values (11, 11, '工商银行(广州)','20210101');

1、创建Hive拉链表

(1)编写建表脚本

  • 添加一列记录历史变化(last_version1)
create table dim.dim_t_yybzb_tgh_bankinfo2_di
(
  id        int,
  bank_id   int,
  bank_name string,
  last_version string
)
row format delimited fields terminated by ','

create table tmp.tmp_t_yybzb_tgh_bankinfo2_di
(
  id        int,
  bank_id   int,
  bank_name string,
  last_version string
)
row format delimited fields terminated by ','

(2)配置SQL组件

  • 数据源:Spark

  • sql类型:非查询

在这里插入图片描述

(3)部署上线

在这里插入图片描述

(4)运行脚本

  • 进入画布

在这里插入图片描述

  • 运行建表脚本

在这里插入图片描述

  • 注意:一次性脚本都是在画布中单独运行,不要直接调度整个JOB

2、初始化导入数据

(1)编写初始化SQL脚本,将数据抽到tmp表中

insert overwrite table tmp.tmp_t_yybzb_tgh_bankinfo2_di 
select id,bank_id,bank_name,
'' as last_version
from ods.ods_t_yybzb_tgh_bankinfo_di 

(2)编写SQL脚本,将tmp表数据抽到dim层

INSERT OVERWRITE TABLE dim.dim_t_yybzb_tgh_bankinfo2_di
select * from tmp.tmp_t_yybzb_tgh_bankinfo1_di

(3)其余步骤同上

在这里插入图片描述

3、拉链表更新配置

(1)整体任务流概览

在这里插入图片描述

(2)编写业务逻辑脚本, 更新last_version,bank_name

INSERT OVERWRITE TABLE tmp.tmp_t_yybzb_tgh_bankinfo1_di
SELECT * FROM
(
    SELECT A.id,
           A.bank_id,
           A.bank_name,
           CASE WHEN A.bank_name = B.bank_name then A.bank_name else B.bank_name end as bank_name,
    	   CASE WHEN A.bank_name = B.bank_name then A.last_version1 else A.bank_name end as last_version
    FROM dim.dim_t_yybzb_tgh_bankinfo1_di AS A
    LEFT JOIN ods.ods_t_yybzb_tgh_bankinfo_di AS B
    ON A.id = B.id
) AS T

(3)将临时表数据刷回dim层

INSERT OVERWRITE TABLE dim.dim_t_yybzb_tgh_bankinfo1_di
select * from tmp.tmp_t_yybzb_tgh_bankinfo1_di

(4)配置depedent组件

  • 依赖一:昨天的datax作业

在这里插入图片描述

  • 依赖二:昨天的dim的数据同步作业

在这里插入图片描述

(5)配置SQL组件

  • SQL组件一:配置业务逻辑SQL将数据导入tmp表

在这里插入图片描述

  • SQL组件二:配置数据同步SQL将数据导入dim表

在这里插入图片描述

(6)定时调度设置

  • 上线部署

在这里插入图片描述

  • 定时设置: 每天6点定时的调度
    在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

随缘清风殇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值