基于MaxCompute实现拉链表-文档总结

本文档主要通过一个实操案例,来介绍在阿里云大数据治理平台DataWorks上,基于大数据计算引擎MaxCompute来设计并实现数据仓库的一种数据模型—拉链表。

在实操之前,文档告知了一些信息,包括“前提条件”、“注意事项”、“适用场景”,以及对拉链表的介绍:

因为可以记录并保留事物从初始到当前,所有发生变化的时间点以及变化的状态,形成了一条条包含时间和状态的“链”,故称这种数据模型为“拉链表”。

案例描述:

实现一个拉链表来记录电商订单从开始到当前状态(创建/支付/完成)的所有变化信息。

涉及到两张表:

  1. 交易下单表:也称之为“增量表”,每日新增的订单数据,举个例子:2023-10-06(当日),001订单“创建”,002订单”支付“。
  2. 拉链表:全量有效或失效的订单数据。注:有效是指订单当前的最新状态,失效是指订单的历史状态。

案例包括3个阶段来细致的介绍平台上各个组件的使用:

  • 任务开发
  • 运行业务流程
  • 结果查询

第一个阶段任务开发包括4个步骤:

  1. 准备工作:介绍了在开发页面上创建一个业务流程,以及本次案例需要的组件(管理业务流程的虚拟节点和执行sql的ODPS SQL
  2. 交易下单表数据准备:介绍如何创建虚拟节点,以及ODPS SQL节点,在该节点上编写SQL代码来导入测试数据到“交易下单表”。
  3. 拉链表实现:创建一个新的ODPS SQL节点,在该节点上编写拉链表导入逻辑的SQL代码,并介绍了拉链表数据加载的逻辑。
  4. 拉链表的使用:创建一个新的ODPS SQL节点,在该节点上编写查询拉链表的SQL代码。

附:拉链表数据加载的逻辑:

  1. 业务日期当日,在增量表中一个订单被更新过,那么拉链表中该订单的有效数据“修改”成失效。
  2. 业务日期当日,增量表中新增所有订单数据直接插入拉链表中,并设置状态为有效。
  3. 通过ROW_NUMBER() OVER() 筛选出首个来支持任务重跑不出现冗余数据。

第二个阶段运行业务流程,是将刚才设计好的拉链表发布到生产环境,并在”运维中心“通过“补数据”操作来实现业务数据的回刷。

第三个阶段结果查询,在“运维中心”运行sql后可以在日志中查看运行结果。

文档的最后,介绍了本案例已内置到“ETL工作流模板”,并指出模板的载入路径,同时还介绍了释放资源以及文档中相关概念的文档链接。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值