Apache DolphinScheduler征稿 — Apache DolphinScheduler 快速入门与部署

本文介绍了Apache DolphinScheduler的背景、特性,并详细阐述了单机部署的全过程,包括Linux环境要求、基础软件安装、数据库初始化、配置修改以及服务的启停。适合大数据领域的初学者和管理员参考。
摘要由CSDN通过智能技术生成

目录

一. Apache DolphinScheduler 背景

二. Apache DolphinScheduler 介绍

三. Apache DolphinScheduler 特性

四. Apache DolphinScheduler 单机部署流程

1. Linux 操作系统版本要求

2. 服务器建议配置

3. 基础软件安装

4. 下载二进制 tar.gz 包并安装

5. 创建部署用户并赋予目录操作权限

6. ssh 免密配置

7. 数据库初始化

8. 修改运行参数

9. 一键部署

10. 登录系统

11. 启停服务


一. Apache DolphinScheduler 背景

2017年,易观在运营自己 6.8Pb 大小、6.02 亿月活、每天近万个调度任务的大数据平台时,受到 ETL (数据仓库技术) 复杂的依赖关系、平台易用性、可维护性及二次开发等方面的问题,技术团队渴望找到一个具有以下功能的数据调度工具:

  • 易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程;
  • 不仅对于 ETL 开发人员,无法编写代码的人也可以使用此工具进行 ETL 操作,例如系统管理员和分析师;
  • 解决 “复杂任务依赖” 问题,并且可以实时监视 ETL 运行状态;
  • 支持多租户;
  • 支持许多任务类型:Shell,MR,Spark,Flink,SQL(mysql,postgresql,hive,sparksql,clickhouse等),DataX,Sqoop,Python,Sub_Process,Procedure 等;
  • 支持HA和线性可扩展性。

易观技术团队意识到现有开源项目没有能够达到他们要求的,因此决定自行开发这个工具。

他们在2017年底设计了 DolphinScheduler 的主要架构;2018年5月完成第一个内部使用版本,后来又迭代了几个内部版本后,系统逐渐稳定下来。


二. Apache DolphinScheduler 介绍

Apache DolphinScheduler (Incubator,原 Easy Scheduler) 是一个可视化的分布式大数据工作流任务调度系统,DolphinScheduler 致力于“可视化操作工作流(任务)之间的依赖关系,并可视化监控整个数据处理过程”。简称 ”DS” , 中文名 为“小海豚调度”(海豚聪明、人性化,又左右脑可互相换班,终生不用睡觉)。

DolphinScheduler 以有向无环图 (DAG) 的方式将任务组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及 Kill 任务等操作。

Apache DolphinScheduler 于 17 年在易观数科立项,美国时间 2019 年 8 月 29 号正式通过顶级开源组织 Apache 基金会的投票决议,以全票通过的优秀表现正式成为了 Apache 孵化器项目, 目前已累计有 400+ 公司在生产上使用。


三. Apache DolphinScheduler 特性

高可靠性

去中心化的多 Master 和多 Worker , 自身支持 HA 功能, 采用任务队列来避免过载,不会造成机器卡死;

简单易用

DAG 监控界面,所有流程定义都是可视化,通过拖拽任务完成定制 DAG ,通过 API 方式与第三方系统集成, 一键部署;

丰富的使用场景

支持暂停恢复操作. 支持多租户,更好的应对大数据的使用场景. 支持更多的任务类型,如: Spark, Hive, M/R, Python, Sub_process, Shell;

高扩展性

支持自定义任务类型,调度器使用分布式调度,调度能力随集群线性增长,Master 和 Worker 支持动态上下线;


四. Apache DolphinScheduler 单机部署流程

DolphinScheduler 作为一款开源分布式工作流任务调度系统,可以很好的部署和运行在 Intel 架构服务器环境及主流虚拟化环境下,并支持主流的 Linux 操作系统环境。

1. Linux 操作系统版本要求

操作系统 版本
Red Hat Enterprise Linux 7.0 及以上
CentOS 7.0 及以上
Oracle Enterprise Linux 7.0 及以上
Ubuntu LTS 16.04 及以上

2. 服务器建议配置

DolphinScheduler 支持运行在 Intel x86-64 架构的 64 位通用硬件服务器平台。对生产环境的服务器硬件配置有以下建议:

CPU 内存 硬盘类型 网络 实例数量
4核+ 8 GB+ SAS 千兆网卡 1+

如果服务器硬件配置不符合要求,建议升级服务器配置,不然可能因为配置不够而无法启动,不要问我是怎么知道的······

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
Apache DolphinScheduler是一个开源的分布式工作流任务调度系统。部署Apache DolphinScheduler 3.0.6-bin可以按照以下步骤进行: 1. 下载Apache DolphinScheduler 3.0.6-bin的压缩包,可以在官方网站或GitHub上找到。 2. 解压压缩包到目标服务器的指定目录。 3. 在解压后的目录中,修改配置文件,根据需求进行相应的配置。主要包括数据库、ZooKeeper和元数据源等配置。 4. 启动ZooKeeper集群,确保集群正常运行。DolphinScheduler需要ZooKeeper来进行任务调度和协调。 5. 初始化DolphinScheduler数据库,通过运行相关的初始化脚本来创建数据库表结构和初始化数据。 6. 配置和启动DolphinScheduler的Master节点,通过修改master.properties文件来配置相关参数,并在启动脚本中指定该配置文件。 7. 配置和启动DolphinScheduler的Worker节点,通过修改worker.properties文件来配置相关参数,并在启动脚本中指定该配置文件。 8. 配置和启动DolphinScheduler的API服务,通过修改api.properties文件来配置相关参数,并在启动脚本中指定该配置文件。 9. 配置和启动DolphinScheduler的Alert客户端,通过修改alert.properties文件来配置相关参数,并在启动脚本中指定该配置文件。 10. 配置和启动DolphinScheduler的Logger客户端,通过修改logger.properties文件来配置相关参数,并在启动脚本中指定该配置文件。 11. 启动DolphinScheduler的调度器服务,通过修改调度器服务的配置文件来配置相关参数,并在启动脚本中指定该配置文件。 完成以上步骤后,Apache DolphinScheduler 3.0.6-bin就成功部署在目标服务器上了。可以通过访问相关的API和界面来管理和监控任务的调度和执行情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盛夏温暖流年

可以赏个鸡腿吃嘛~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值