DataWorks搬站方案：Azkaban作业迁移至DataWorks

阿里开发者

于 2021-04-29 15:08:15 发布

阅读量564

点赞数

文章标签： SQL 分布式计算 DataWorks 大数据 Shell 调度 MaxCompute HIVE

本文链接：https://blog.csdn.net/alitech2017/article/details/116269584

版权

本文介绍了如何使用DataWorks迁移助手将Azkaban工作流调度引擎的任务迁移到DataWorks。迁移过程包括Azkaban作业的导出和导入，支持不同版本的Azkaban，并提供了详细的转换设置，如Spark提交、SQL任务和Shell任务的映射，确保任务能顺利转换为DataWorks中的MaxCompute、EMR或CDH类型作业。

摘要由CSDN通过智能技术生成

简介：DataWorks迁移助手提供任务搬站功能，支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。

DataWorks迁移助手提供任务搬站功能，支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。

支持迁移的Azkaban版本

支持全部版本的Azkaban迁移。

整体迁移流程

迁移助手支持开源工作流调度引擎到DataWorks体系的大数据开发任务迁移的基本流程如下图所示。

针对不同的开源调度引擎，DataWorks迁移助手会出一个相关的任务导出方案。

整体迁移流程为：通过迁移助手调度引擎作业导出能力，将开源调度引擎中的作业导出；再将作业导出包上传至迁移助手中，通过任务类型映射，将映射后的作业导入至DataWorks中。作业导入时可设置将任务转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。

Azkaban作业导出

Azkaban工具本身具备导出工作流的能力，有自己的Web控制台，如下图所示：

Azkaban界面支持直接Download某个Flow。Flow的导出流程：

操作步骤：

1.进入Project页面

2.点击Flows，会列出Project下面所有的工作流(Flow)

3.点击Download即可下载Project的导出文件

Azkaban导出包格式原生Azkaban即可，导出包Zip文件内部为Azakaban的某个Project的所有任务(Job)和关系信息。

Azkaban作业导入

拿到了开源调度引擎的导出任务包后，用户可以拿这个zip包到迁移助手的迁移助手->任务上云->调度引擎作业导入页面上传导入包进行包分析。

导入包分析成功后点击确认，进入导入任务设置页面，页面中会展示分析出来的调度任务信息。

开源调度导入设置

用户可以点击高级设置，设置Azkaban任务与DataWorks任务的转换关系。不同的开源调度引擎，在高级设置里面的设置界面基本一致，如下图：

高级设置项介绍：

sparkt-submit转换为：导入过程会去分析用户的任务是不是sparkt-submit任务，如果是的话，会将spark-submit任务转换为对应的DataWorks任务类型，比如说：ODPS_SPARK/EMR_SPARK/CDH_SPARK等
命令行 SQL任务转换为：开源引擎很多任务类型是命令行运行SQL，比如说hive -e, beeline -e, impala-shell等等，迁移助手会根据用户选择的目标类型做对应的转换。比如可以转换成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等
目标计算引擎类型：这个主要是影响的是Sqoop同步的目的端的数据写入配置。我们会默认将sqoop命令转换为数据集成任务。计算引擎类型决定了数据集成任务的目的端数据源使用哪个计算引擎的project。
Shell类型转换为：SHELL类型的节点在Dataworks根据不同计算引擎会有很多种，比如EMR_SHELL，CDH_SHELL，DataWorks自己的Shell节点等等。
未知任务转换为：对目前迁移助手无法处理的任务，我们默认用一个任务类型去对应，用户可以选择SHELL或者虚节点VIRTUAL
SQL节点转换为：DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比如 EMR_HIVE，EMR_IMPALA、EMR_PRESTO，CDH_HIVE，CDH_IMPALA，CDH_PRESTO，ODPS_SQL，EMR_SPARK_SQL，CDH_SPARK_SQL等，用户可以选择转换为哪种任务类型。

注意：这些导入映射的转换值是动态变化的，和当前项目空间绑定的计算引擎有关，转换关系如下。

导入至DataWorks + MaxCompute

设置项	可选值
sparkt-submit转换为	ODPS_SPARK
命令行 SQL任务转换为	ODPS_SQL、ODPS_SPARK_SQL
目标计算引擎类型	ODPS
Shell类型转换为	DIDE_SHELL
未知任务转换为	DIDE_SHELL、VIRTUAL
SQL节点转换为	ODPS_SQL、ODPS_SPARK_SQL

导入至DataWorks + EMR

导入至DataWorks + CDH

设置项	可选值
sparkt-submit转换为	CDH_SPARK
命令行 SQL任务转换为	CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
目标计算引擎类型	CDH
Shell类型转换为	DIDE_SHELL
未知任务转换为	DIDE_SHELL、VIRTUAL
SQL节点转换为	CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

执行导入

设置完映射关系后，点击开始导入即可。导入完成后，请进入数据开发中查看导入结果。

数据迁移

大数据集群上的数据迁移，可参考：DataWorks数据集成或MMA。

任务上云详细文档：https://help.aliyun.com/document_detail/181296.html

原文链接：https://developer.aliyun.com/article/783735?

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里开发者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DataWorks搬站方案：Azkaban作业迁移至DataWorks

简介：DataWorks迁移助手提供任务搬站功能，支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。DataWorks迁移助手提供任务搬站功能，支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。支持迁移的Azkaban版本支持全部版本的Azkaba
复制链接

扫一扫

设置项	可选值
sparkt-submit转换为	EMR_SPARK
命令行 SQL任务转换为	EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
目标计算引擎类型	EMR
Shell类型转换为	DIDE_SHELL, EMR_SHELL
未知任务转换为	DIDE_SHELL、VIRTUAL
SQL节点转换为	EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL