DolphinScheduler——调度系统数仓任务编排规范

本文探讨了DolphinScheduler在处理数仓任务时存在的问题,提出了一套基于数据建模分层的管理规范,包括工作流分类(分层工作流、Master工作流和异常容错工作流),旨在提高任务编排的规范性和数据管理的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  原文大佬的这篇DS数仓任务编排规范有借鉴意义,这里摘抄下来用作学习和知识沉淀。

前言

   在使用DolphinScheduler(以下简称DS)做数仓任务管理时,数据建模分层落地到调度上缺少规范,往往比较随意,例如将所有任务节点写到一个工作流里,或将每个逻辑节点单独定义一个工作流等。下文基于数仓建模标准的方法论,构建一套用于DS管理数仓任务的规范。

一、海豚调度数仓任务现状分析

   在使用调度能力的时候,一些常见的场景如下:

1.1 一个任务流构建数仓所有的逻辑节点

  DS中有任务血缘的概念,这个概念和数据血缘有许多类似的地方;在构建调度任务的时候,用户容易将任务血缘和数据血缘混淆,希望在构建数仓生命周期的时候,通过任务血缘呈现出数据血缘的关系,这导致丢失了数据建模规范的分层管理

类似例子如下:

单个工作流:

包含所有计算逻辑:

优点:这样做的好处是可以在一个工作流里直观的复现数据建模;

缺点:对于数据管理困难,只能人为的观察定位数据情况;任务运行异常后,容错困难,要排查所有的逻辑节点,并将计算逻辑回滚,这是特

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值