Workflow:配整个任务的走向的,即程序流程控制图
Coordinator:这个配置文件就是配置任务什么时候启动,什么时候关闭,可以配置任务开始和结束时间,如果说从月初跑到月尾,整个定时都是这一块的。
下图是Workflow里面的核心东西,
注意上图是需要在安装配置好hadoop集群之后在core-site.xml里面增加这两个配置项的。
我们安装部署CDH集群,把下面三个文件拷贝到我们的centos中,ext是我们后面要用到的js框架
然后解压.gz文件,并修改hadoop配置文件。
配置hadoop-env.sh配置文件
配置mapred-env.sh配置文件
配置yarn-env.sh配置文件
配置core-site.xml配置文件
注意还要增加下图所示的两个配置参数
上图表达的意思是下图Oozie官网所示,需要配置Oozie的用户名和Oozie的主机名
配置hdfs-site.xml配置文件
配置mapred-site.xml文件(注意要修改文件名)
配置yarn-site.xml配置文件
配置slaves配置文件
格式化CDH集群
启动
注意上图的创建libext目录,名字不能修改,原因在下图的Oozie官网中有说到
上图所示的两个蓝色的文件夹拷贝上面文件夹下面的所有jar包倒libext中,不要直接把整个文件夹拷贝过去了。
下面的mr1是hadoop1.0版本的,我们用的是2.0所以不需要管了。
因为Oozie的元数据信息是保存在mysql中的,所以也是需要mysql驱动的
注意上面的*=不要删掉
我们Oozie自己的命令去上传,而不是使用hadoop fs,命令执行完毕后去50070去看看有没有下图所示
目录的名字是以当前时间命名的,可以看到pig,sqoop等等的jar包都有,他在调度的时候就会来这个目录找,
一会我们会打成war包,在打成war包的时候就把这个日期的路径打进去了。
下面我们创建oozie.sql文件
案例:
<file>中的#${EXEC}是固定写法
按照上面两个图修改完成后执行下图命令上传到HDFS
可以看到报错信息如下
修改p1.sh
修改完成删除HDFS中的p1.sh并重新上传并重新运行。
看上图说明执行成功了,下面我们来看一下打印生成的p1.log,发现找不到了。
这是因为任务调度交给yarn来调度,yarn选一个nodemananger来执行任务,那么在哪里执行就打印在哪。我们可以通过下图知道在哪执行的。