DolphinScheduler单机部署如何将任务提交到hadoop上执行

卖旺sellerwant

于 2024-08-05 03:08:14 发布

阅读量27

点赞数

文章标签： hadoop 大数据分布式

DolphinScheduler 单机部署：如何将任务提交到 Hadoop 上执行

在现代数据处理环境中，DolphinScheduler 作为一款开源的分布式任务调度系统，越来越受到企业的欢迎。本文将具体探讨如何在单机部署的 DolphinScheduler 中，将任务提交到 Hadoop 执行，并且通过实际代码示例来说明该过程。我们还会使用甘特图和饼状图来更好地展示任务执行的整体情况。

一、DolphinScheduler 简介

DolphinScheduler 是一个功能强大的任务调度平台，旨在解决复杂的任务调度问题。其设计优雅，易于扩展，支持多种调度方式及任务类型，使得它成为大数据处理中的一大利器。通过与 Hadoop 的结合，可以实现数据的分布式处理以及高效的数据流转。

二、单机部署 DolphinScheduler

环境准备
- 系统要求：Linux或Windows操作系统
- 安装 Java JDK 1.8+
- 安装 MySQL 数据库（用于存储作业元数据）
- 安装 Hadoop

下载并安装 DolphinScheduler

wget 
tar -zxvf apache-dolphinscheduler-{version}-bin.tar.gz
cd apache-dolphinscheduler-{version}-bin

配置数据库

在 conf/application.yml 中进行数据库配置，确保能连接到 MySQL 数据库。
启动 DolphinScheduler

在 bin 目录下执行以下命令启动服务：
```
sh bin/start-all.sh
```
- 1.
验证服务是否启动成功，访问浏览器 http://localhost:12345，打开 DolphinScheduler 的 Web 控制台。

三、向 Hadoop 提交任务

1. 创建 Hadoop 任务

在 DolphinScheduler 中，我们可以创建一个简单的 Shell 任务来提交一个 Hadoop 任务。以下是提交 Hadoop 任务的步骤。

1.1 创建一个新工作流

在 DolphinScheduler 的 Web 控制台中，创建一个新的工作流，并添加一个 Shell 任务。

1.2 配置 Shell 脚本

Shell 脚本的内容如下，假设我们要通过 Hadoop 执行一个 MapReduce 示例程序：

#!/bin/bash
HADOOP_HOME=/path/to/hadoop
JAR_PATH=/path/to/your/mapreduce.jar
MAIN_CLASS=com.example.YourMainClass
INPUT_PATH=hdfs:///input/data
OUTPUT_PATH=hdfs:///output/result

# 执行 Hadoop 任务
${HADOOP_HOME}/bin/hadoop jar ${JAR_PATH} ${MAIN_CLASS} ${INPUT_PATH} ${OUTPUT_PATH}

将上述脚本添加到 DolphinScheduler 的 Shell 任务配置中，并设置相应的环境变量。

2. 运行任务并监控执行情况

启动工作流后，可以在 DolphinScheduler 的控制台中查看任务状态。接下来，我们将生成执行情况的甘特图和饼状图。

3. 使用 Mermaid 语法描述任务执行情况

3.1 甘特图

使用 Mermaid 语法生成甘特图，展示任务的执行时间和依赖关系：

3.2 饼状图

使用 Mermaid 语法生成饼状图，展示任务成功与失败的比例：

四、总结

通过本文的介绍，我们了解了如何在单机部署的 DolphinScheduler 中配置任务并向 Hadoop 提交执行。DolphinScheduler 的易用性和 Hadoop 的强大计算能力结合，形成了一个灵活的处理框架，为大数据处理提供了可靠的支持。

这种集成使得开发者能更好地管理任务调度，同时监控任务的执行情况，从而提高整体工作效率。在实际应用中，可以根据具体需求，自定义工作流和任务，达到更优的使用效果。

希望本文能够为您在数据处理过程中提供帮助，使您的工作更加高效顺利。

原创作者: u_16213307 转载于: https://blog.51cto.com/u_16213307/11651771

卖旺sellerwant

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DolphinScheduler单机部署如何将任务提交到hadoop上执行

DolphinScheduler 单机部署：如何将任务提交到 Hadoop 上执行在现代数据处理环境中，DolphinScheduler 作为一款开源的分布式任务调度系统，越来越受到企业的欢迎。本文将具体探讨如何在单机部署的 DolphinScheduler 中，将任务提交到 Hadoop 执行，并且通过实际代码示例来说...
复制链接

扫一扫