Oozie介绍及使用


Workflow:配整个任务的走向的,即程序流程控制图

Coordinator:这个配置文件就是配置任务什么时候启动,什么时候关闭,可以配置任务开始和结束时间,如果说从月初跑到月尾,整个定时都是这一块的。


下图是Workflow里面的核心东西,


注意上图是需要在安装配置好hadoop集群之后在core-site.xml里面增加这两个配置项的。

我们安装部署CDH集群,把下面三个文件拷贝到我们的centos中,ext是我们后面要用到的js框架

然后解压.gz文件,并修改hadoop配置文件。

配置hadoop-env.sh配置文件

配置mapred-env.sh配置文件

配置yarn-env.sh配置文件

配置core-site.xml配置文件

注意还要增加下图所示的两个配置参数

上图表达的意思是下图Oozie官网所示,需要配置Oozie的用户名和Oozie的主机名

配置hdfs-site.xml配置文件

配置mapred-site.xml文件(注意要修改文件名)

配置yarn-site.xml配置文件

配置slaves配置文件

格式化CDH集群

启动


注意上图的创建libext目录,名字不能修改,原因在下图的Oozie官网中有说到

上图所示的两个蓝色的文件夹拷贝上面文件夹下面的所有jar包倒libext中,不要直接把整个文件夹拷贝过去了。

下面的mr1是hadoop1.0版本的,我们用的是2.0所以不需要管了。

因为Oozie的元数据信息是保存在mysql中的,所以也是需要mysql驱动的

注意上面的*=不要删掉

我们Oozie自己的命令去上传,而不是使用hadoop fs,命令执行完毕后去50070去看看有没有下图所示

目录的名字是以当前时间命名的,可以看到pig,sqoop等等的jar包都有,他在调度的时候就会来这个目录找,

一会我们会打成war包,在打成war包的时候就把这个日期的路径打进去了。


下面我们创建oozie.sql文件



案例:

 

<file>中的#${EXEC}是固定写法

按照上面两个图修改完成后执行下图命令上传到HDFS

可以看到报错信息如下

修改p1.sh

修改完成删除HDFS中的p1.sh并重新上传并重新运行。

看上图说明执行成功了,下面我们来看一下打印生成的p1.log,发现找不到了。

这是因为任务调度交给yarn来调度,yarn选一个nodemananger来执行任务,那么在哪里执行就打印在哪。我们可以通过下图知道在哪执行的。


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值