基于DolphinScheduler的使用浅谈数仓分层及模型设计

最新推荐文章于 2024-03-08 18:47:56 发布

学而知之@

最新推荐文章于 2024-03-08 18:47:56 发布

阅读量7.6k

点赞数 2

分类专栏：大数据数据仓库原创

本文链接：https://blog.csdn.net/weixin_42138677/article/details/119685577

版权

本文介绍了Apache DolphinScheduler（DS）的架构设计和在数仓分层中的应用，包括DAG任务、任务类型、调度方式、依赖管理和邮件告警。在实践中，详细阐述了dw_ods、dw_dwd、dw_dws、DM和DIM层的模型设计，强调了DS在提升开发效率和任务管理清晰度方面的作用。

摘要由CSDN通过智能技术生成

前言：本文旨在简单介绍DS的概述和架构上的设计，对其安装等不做展开介绍。之前了解了一下，很多小伙伴也在使用该产品。我呢，也是到现在公司后才开始接触并使用，对其 “开发” 的还不够深，这里根据官方文档和项目中的实践和大家简单分享。欢迎大家批评指正，敬礼！
在这里插入图片描述

一、简介

DS是分布式易扩展的可视化工作流任务调度平台。

Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

二、架构图

在这里插入图片描述

三、架构设计

1、名词解释

1.1、DAG：

相信大家对这个次并不陌生，在spark和flink中都有这个定义。在DS中，工作流中的Task任务以有向无环图的形式组装起来，从入度为零的节点进行拓扑遍历，直到无后继节点为止。举例如下图：
在这里插入图片描述

1.2、任务类型：

目前支持有SHELL、SQL、SUB_PROCESS(子流程)、PROCEDURE、MR、SPARK、PYTHON、DEPENDENT(依赖)，同时计划支持动态插件扩展，注意：其中子 SUB_PROCESS 也是一个单独的流程定义，是可以单独启动执行的。举例如下图：
注：左侧边栏看大的都是可调度执行的组件，畅用无限~

在这里插入图片描述