Oozie简介和运行实例

最新推荐文章于 2022-06-30 17:46:32 发布

少年阿峣_从零单排

最新推荐文章于 2022-06-30 17:46:32 发布

阅读量2.2k

点赞数 1

分类专栏： # Oozie 【大数据生态】文章标签： oozie 简介 demo实例

本文链接：https://blog.csdn.net/qq_18769269/article/details/100071935

版权

【大数据生态】同时被 2 个专栏收录

38 篇文章 1 订阅

订阅专栏

Oozie

1 篇文章 0 订阅

订阅专栏

一、oozie简介

Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。

官网连接：http://oozie.apache.org/

1、安装：

一是源生的，需要自己编译；（本文暂时不介绍具体的安装步骤，可以参考https://blog.csdn.net/lucylove3943/article/details/80673962）

二是CDH的包来安装，和源生类似；

三是Ambari上安装

2、Oozie的Web页面。

3、支持类型的Hadoop作业：

Oozie与Hadoop生态圈的其他部分集成在一起，支持多种类型的Hadoop作业（如Java map-reduce、流式map-reduce、Pig、Hive、Sqoop和Distcp）以及特定于系统的工作（如Java程序和shell脚本）。

4、主要概念：

4.1、Workflow：

工作流，由我们需要处理的每个工作组成，进行需求的流式处理。（一个具体的任务，例如执行一个mr）

4.2、Coordinator：

协调器，可以理解为工作流的协调器，可以将多个工作流协调成一个工作流来进行处理（例如可以控制workflow每天24点执行）。

4.3、Bundle：

捆，束。将一堆的coordinator进行汇总处理。

简单来说，workflow是对要进行的顺序化工作的抽象，coordinator是对要进行的顺序化的workflow的抽象，bundle是对一堆coordiantor的抽象。层级关系层层包裹。

Oozie的 workflow jobs 是由 actions 组成的 有向无环图(DAG)。

5、Job组成：

一个oozie 的 job 一般由以下文件组成：
1、job.properties ：记录了job的属性（hdfs、yarn、workflow、定时任务等基本信息）
2、workflow.xml ：使用hPDL 定义任务的流程和分支（定义任务的整体流程）
3、lib目录：用来执行具体的任务（例如需要执行mr任务的jar包）

下面是具体的说明：

1、Job.properties：

2、workflow.xml：

这个文件是定义任务的整体流程的文件，官网wordcount例子如下：

3、Lib目录

在workflow工作流定义的同级目录下，需要有一个lib目录，在lib目录中存在java节点MapReduce使用的jar包。

需要注意的是，oozie并不是使用指定jar包的名称来启动任务的，而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本，不能够出现多个相同主类。

注意：*********************************************************

下面的6、7、8可简略查看，内容比较详细，可以先看二、“使用”后再翻过来回看。

6、工作流生命周期

在Oozie中，工作流的状态可能存在如下几种：

状态	含义说明
PREP	一个工作流Job第一次创建将处于PREP状态，表示工作流Job已经定义，但是没有运行。
RUNNING	当一个已经被创建的工作流Job开始执行的时候，就处于RUNNING状态。它不会达到结束状态，只能因为出错而结束，或者被挂起。
SUSPENDED	一个RUNNING状态的工作流Job会变成SUSPENDED状态，而且它会一直处于该状态，除非这个工作流Job被重新开始执行或者被杀死。
SUCCEEDED	当一个RUNNING状态的工作流Job到达了end节点，它就变成了SUCCEEDED最终完成状态。
KILLED	当一个工作流Job处于被创建后的状态，或者处于RUNNING、SUSPENDED状态时，被杀死，则工作流Job的状态变为KILLED状态。
FAILED	当一个工作流Job不可预期的错误失败而终止，就会变成FAILED状态。

上述各种状态存在相应的转移（工作流程因为某些事件，可能从一个状态跳转到另一个状态），其中合法的状态转移有如下几种，如下表所示：

转移前状态	转移后状态集合
未启动	PREP
PREP	RUNNING、KILLED
RUNNING	SUSPENDED、SUCCEEDED、KILLED、FAILED
SUSPENDED	RUNNING、KILLED

明确上述给出的状态转移空间以后，可以根据实际需要更加灵活地来控制工作流Job的运行。

7、控制流节点（相当于抽象顺序，不包含具体内容）

工作流程定义中，控制工作流的开始和结束，以及工作流Job的执行路径的节点，它定义了流程的开始（start节点）和结束（end节点或kill节点），同时提供了一种控制流程执行路径的机制（decision决策节点、fork分支节点、join会签节点）。通过上面提到的各种节点，我们大概应该能够知道它们在工作流中起着怎样的作用。下面，我们看一下不同节点的语法格式：

start节点

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

...

</workflow-app>

上面start元素的to属性，指向第一个将要执行的工作流节点。

end节点

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

...

</workflow-app>

达到该节点，工作流Job会变成SUCCEEDED状态，表示成功完成。需要注意的是，一个工作流定义必须只能有一个end节点。

kill节点

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<message>[MESSAGE-TO-LOG]</message>

</kill>

...

</workflow-app>

kill元素的name属性，是要杀死的工作流节点的名称，message元素指定了工作流节点被杀死的备注信息。达到该节点，工作流Job会变成状态KILLED。

decision节点

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<case to="[NODE_NAME]">[PREDICATE]</case>

...

<case to="[NODE_NAME]">[PREDICATE]</case>

</switch>

</decision>

...

</workflow-app>

decision节点通过预定义一组条件，当工作流Job执行到该节点时，会根据其中的条件进行判断选择，满足条件的路径将被执行。decision节点通过switch…case语法来进行路径选择，只要有满足条件的判断，就会执行对应的路径，如果没有可以配置default元素指向的节点。

fork节点和join节点

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

...

</fork>

...

...

</workflow-app>

for元素下面会有多个path元素，指定了可以并发执行的多个执行路径。fork中多个并发执行路径会在join节点的位置会合，只有所有的路径都到达后，才会继续执行join节点。

8、动作节点（Action Nodes）

工作流程定义中，能够触发一个计算任务（Computation Task）或者处理任务（Processing Task）执行的节点。

一个动作执行成功会转到ok节点；如果失败转向error节点。

Map-Reduce动作

map-reduce动作会在工作流Job中启动一个MapReduce Job任务运行，我们可以详细配置这个MapReduce Job。另外，可以通过map-reduce元素的子元素来配置一些其他的任务，如streaming、pipes、file、archive等等。
下面给出包含这些内容的语法格式说明：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<map-reduce>

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<mapper>[MAPPER-PROCESS]</mapper>

<reducer>[REDUCER-PROCESS]</reducer>

<record-reader>[RECORD-READER-CLASS]</record-reader>

<record-reader-mapping>[NAME=VALUE]</record-reader-mapping>

...

<env>[NAME=VALUE]</env>

...

</streaming>

<pipes>

<map>[MAPPER]</map>

[REDUCER]

</reducer>

<inputformat>[INPUTFORMAT]</inputformat>

<partitioner>[PARTITIONER]</partitioner>

<writer>[OUTPUTFORMAT]</writer>

<program>[EXECUTABLE]</program>

</pipes>

<job-xml>[JOB-XML-FILE]</job-xml>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

...

...

</map-reduce>

</action>

...</workflow-app>

Hive动作

Hive主要是基于类似SQL的HQL语言的，它能够方便地操作HDFS中数据，实现对海量数据的分析工作。HIve动作的语法格式如下所示：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.2">

...

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

<param>[PARAM-VALUE]</param>

...

</hive>

</action>

...</workflow-app>

Sqoop动作

Sqoop是一个能够在Hadoop和结构化存储系统之间进行数据的导入导出的工具，Sqoop动作的语法格式如下：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.2">

...

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

<command>[SQOOP-COMMAND]</command>

...

</sqoop>

</action>

...</workflow-app>

Pig动作

pig动作可以启动运行pig脚本实现的Job，在工作流定义中配置的语法格式说明如下：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.2">

...

<pig>

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<job-xml>[JOB-XML-FILE]</job-xml>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

<param>[PARAM-VALUE]</param>

...

<param>[PARAM-VALUE]</param>

<argument>[ARGUMENT-VALUE]</argument>

...

<argument>[ARGUMENT-VALUE]</argument>

...

...

</pig>

</action>

...</workflow-app>

Fs动作

Fs动作主要是基于HDFS的一些基本操作，如删除路径、创建路径、移动文件、设置文件全乡等等。
语法格式：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<fs>

...

...

...

...

</fs>

</action>

...</workflow-app>

SSH动作

该动作主要是通过ssh登录到一台主机，能够执行一组shell命令，它在Oozie schema 0.2中已经被删除。
语法格式：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<ssh>

<command>[SHELL]</command>

<args>[ARGUMENTS]</args>

...

<capture-output />

</ssh>

</action>

...</workflow-app>

Java动作

Java动作，是执行一个具有main入口方法的应用程序，在Oozie工作流定义中，会作为一个MapReduce Job执行，这个Job只有一个Map任务。我们需要指定NameNode、JobTracker的信息，还有配置一个Java应用程序的JVM选项参数（java-opts），以及传给主函数（arg）。
语法格式：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<java>

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<job-xml>[JOB-XML]</job-xml>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

<main-class>[MAIN-CLASS]</main-class>

<java-opts>[JAVA-STARTUP-OPTS]</java-opts>

<arg>ARGUMENT</arg>

...

...

...

<capture-output />

</java>

</action>

...</workflow-app>

Sub-workflow动作

Sub-workflow动作是一个子流程的动作，主流程执行过程中，遇到子流程节点执行时，会一直等待子流程节点执行完成后，才能继续跳转到下一个要执行的节点。
语法格式：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1">

...

<sub-workflow>

<app-path>[WF-APPLICATION-PATH]</app-path>

<propagate-configuration />

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

</sub-workflow>

</action>

...</workflow-app>

Shell动作

Shell动作可以执行Shell命令，并通过配置命令所需要的参数。它的语法格式：

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.4">

...

<job-tracker>[JOB-TRACKER]</job-tracker>

<name-node>[NAME-NODE]</name-node>

...

...

</prepare>

<name>[PROPERTY-NAME]</name>

<value>[PROPERTY-VALUE]</value>

</property>

...

</configuration>

<exec>[SHELL-COMMAND]</exec>

<argument>[ARGUMENT-VALUE]</argument>

<capture-output />

</shell>

</action>

...</workflow-app>

二、使用：

1、Oozie目录：(4.3.1版本)

主要：

bin：执行命令的

conf: 配置目录

lib: oozie的相关包

share: 上传到hadoop中需要配合运行oozie的包（上传到hdfs后oozie这里就不需要了）

examples : 这个examples是接下来要介绍的 oozie提交mr例子所需要的所有内容

Oozie的使用

一：源生（下面以运行一个MR任务为例）

使用Oozie，就先进行源生安装，比较麻烦，需要配置一些东西，其中主要有基本的hdfs、yarn等地址，而且还有hdfs中conf的映射地址，需要上传到hdfs上的oozie的相关jar包和地址映射。

其中主要就是编写job中的配置，来用oozie规定的规范来编写自己的逻辑。

二：配合Hue使用

使用方便，直接在上面进行操作即可

源生运行MR任务为例：

3.1、配置job任务

刚才在oozie目录下，有个exmaples文件夹，已经介绍过了，这就是要运行一个mr任务所需要所有东西，他都由哪些文件组成呢？让我们来看一下：

apps：包含配置oozie任务所需要对应的文件
Input-data: 里面是wordcount的一个txt文件
src： mr的java代码

下面主要介绍apps ：

图中标注的，即为“一、5 Job组成”中介绍的，三要素：Job.properties、Workflow.xml、Lib

其中：

Job.properties 内容如下：（记录了job的属性（hdfs、yarn地址等基本信息））

workflow.xml 内容如下：

定义了mr的任务的流程

这里面主要是运行mr action的内容。

lib目录：里面是该例子的jar包

3.2、上传到HDFS对应目录下（该目录映射在conf里有配置）

因为oozie可能没有在hdfs运行的主节点上，所以需要把所需的job配置和jar包等上传到hdfs中。

上传jar包、代码、相应的job配置到HDFS对应的目录下，实例如下。

3.3、启动Oozie

在oozie的安装目录下执行

bin/oozied.sh start

3.4、启动前提

运行oozie任务前，需要先启动hadoop，包括hdfs和yarn等。

注意：还需要启动jobhistory

命令：sbin/mr-jobhistory-daemon.sh start historyserver

3.5、启动mr的Job实例

选好oozie的地址，指定jon.properties启动，命令如下：

bin/oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties -run

执行后，会返回一个job的id。

然后我们去看一下，oozie的web 界面：

我们点开这个Job，可以查看详情、任务配置、DAG图等信息

然后我们看hdfs上，有个目录，里面记录了job id的信息，有相应目录，说明提交已经成功。

然后查看输出任务，应该有相应的目录。

至此，demo流程基本上运行完毕~相信大家会有一个清晰的认识了，最后运行还是推荐在HUE上，比较方便。

少年阿峣_从零单排

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Oozie简介和运行实例

一、oozie简介Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。官网连接：http://oozie.apache.org/1、安装：一是源生的，需要自己编译；（本文暂时不介绍具体的安装步骤，可以参考https://blog.csdn.net/lucylove3943/article/details/80673962）二是CDH的包来安装，和源生类似；...
复制链接

扫一扫