一、概述
原生的 Azkaban 支持的plugin类型有以下这些:
command:Linux shell命令行任务
gobblin:通用数据采集工具
hadoopJava:运行hadoopMR任务
java:原生java任务
hive:支持执行hiveSQL
pig:pig脚本任务
spark:spark任务
hdfsToTeradata:把数据从hdfs导入Teradata
teradataToHdfs:把数据从Teradata导入hdfs
其中最简单而且最常用的是command类型,我们在上一篇文章中已经描述了如何编写一个command的job任务。如果使用command类型,效果其实跟在本地执行Linux shell命令一样,这样的话,还不如把shell放到crontable 中运行。所以我们把重点放到Azkaban支持的比较常用的四种类型:java、hadoopJava、hive、spark
二、java类型
1、代码编写:MyJavaJob.java
package com.dataeye.java;
public class MyJavaJob {
public static void main(String[] args) {
System.out.println("#################################");
System.out.println("#### MyJavaJob class exec... ###");
System.out.println("#################################");
}
}
2、打包成jar文件:使用maven或者eclipse导出为jar文件
3、编写job文件:java.job
type=javaprocess
classpath=./lib/*,${azkaban.home}/lib/*
java.class=com.dataeye.java.MyJavaJob
4、组成一个完整的运行包
新建一个目录,在该目录下创建一个lib文件夹,把第二步打包的jar文件放到这里,把job文件放到和lib文件夹同一级的目录下,如下所示:
完整的运行包
5、打包成zip文件
把lib目录和job文件打包成zip文件,如下的java.zip:
zip文件
6、提交运行,过程跟之前文章介绍的步骤一样,不再详述,执行结果如下:
执行结果
从输出日志可以看出,代码已经正常执行。
以上是java类型的任务编写和执行的过程。接下来介绍其他任务编写的时候,只会介绍代码的编写和job的编写,其他过程与上面的一致。
三、hadoopJava类型