基于MaxCompute实现拉链表-文档总结

最新推荐文章于 2024-09-03 17:44:57 发布

发热石幔

最新推荐文章于 2024-09-03 17:44:57 发布

阅读量262

点赞数 3

文章标签： odps 大数据数据仓库

本文链接：https://blog.csdn.net/freshman__/article/details/140406675

版权

本文档主要通过一个实操案例，来介绍在阿里云大数据治理平台DataWorks上，基于大数据计算引擎MaxCompute来设计并实现数据仓库的一种数据模型—拉链表。

在实操之前，文档告知了一些信息，包括“前提条件”、“注意事项”、“适用场景”，以及对拉链表的介绍：

因为可以记录并保留事物从初始到当前，所有发生变化的时间点以及变化的状态，形成了一条条包含时间和状态的“链”，故称这种数据模型为“拉链表”。

案例描述：

实现一个拉链表来记录电商订单从开始到当前状态（创建/支付/完成）的所有变化信息。

涉及到两张表：

案例包括3个阶段来细致的介绍平台上各个组件的使用:

第一个阶段任务开发包括4个步骤：

附：拉链表数据加载的逻辑：

业务日期当日，在增量表中一个订单被更新过，那么拉链表中该订单的有效数据“修改”成失效。
业务日期当日，增量表中新增所有订单数据直接插入拉链表中，并设置状态为有效。
通过ROW_NUMBER() OVER() 筛选出首个来支持任务重跑不出现冗余数据。

第二个阶段运行业务流程，是将刚才设计好的拉链表发布到生产环境，并在”运维中心“通过“补数据”操作来实现业务数据的回刷。

第三个阶段结果查询，在“运维中心”运行sql后可以在日志中查看运行结果。

文档的最后，介绍了本案例已内置到“ETL工作流模板”，并指出模板的载入路径，同时还介绍了释放资源以及文档中相关概念的文档链接。

关注