安装前准备:
安装hadoop,可参考文章:https://blog.csdn.net/lucylove3943/article/details/80589422
安装spark,可参考文章:https://blog.csdn.net/lucylove3943/article/details/96477861
我当前电脑安装的hadoop版本是2.9.2,spark的版本是2.4.4,和上面博客中稍有不同,不过安装配置方法很类似,可直接参考。
安装Maven,Mysql,可参考这篇oozie安装文章:https://blog.csdn.net/lucylove3943/article/details/80673962
Mysql建立数据库啥的,在上篇文章都有,这里就直接使用了。
其实整体上这篇文章和上一篇oozie安装文章类似,只是oozie对spark2的支持有点不一样,对于spark的jar包和配置要额外弄。
所以仔细看的话,两篇文章有很多一模一样的内容。
如果oozie在使用过程中,Mysql报时区错误可以可参考这篇文章解决:https://blog.csdn.net/lucylove3943/article/details/80994379
下载编译oozie需要的包:
我看到网上很多下载都需要积分,我打包了所有我自己单独下载的包,传了一份到百度网盘。
链接: https://pan.baidu.com/s/1BImAWQeWIyrPjiiLupE6OQ 密码: 1m7p
这里面一共有5个包,其中mysql-connector-java-8.0.11.jar和ext-2.2.zip是之后oozie要用到的,之后再说怎么用。
另外三个包:网上有人建议把这三个包放在maven里面,后面oozie才能编译成功。我也不太确定我是否真的用上了,不过为了以防万一,我就这么办了。简单来说,就是把这三个包放在目录:apache-maven-3.5.3/lib/目录下。
我的Cluster配置
一共7台电脑,两个机架:
机架一:dragon-1, dragon-2, dragon-3, dragon-4, dragon-5
机架二:cat-5, cat-7
Hadoop安装版本为2.9.2,设置dragon-1为namenode和resource manager
Spark安装版本是2.4.4,由于我让Hadoop中的yarn作为cluster manager,所以master,slave配置不重要。
如果还想单独使用spark自带的cluster manager的话,可以参考上面博文配置spark的master和slave信息。
正式开始安装OOzie
进入oozie官网:http://oozie.apache.org, 我下载的是4.3.1版。
下载之后解压:
tar -xzvf oozie-4.3.1.tar.gz
然后根据系统配置来修改pom.xml文件。
由于我的oozie只需要用到Hadoop和spark,所以我只需要参考以下三个值:
- java版本
- hadoop版本 : 2.9.2
- spark版本:2.4.4
java版本通过以下命令行查看:
java -version
我这里的java版本是1.8...
在pom.xml中找到hadoop version,spark version还有java version这样配置:
修改完之后,在oozie-4.3.1的目录下输入如下指令:
bin/mkdistro.sh -DskipTests -Puber
然后就开始等待编译。编译完成后,在oozie-4.3.1/distro/target中找到oozie-4.3.1.distro.tar.gz,这个就是编译好的oozie。
把这个oozie复制到home目录下。先把编译的前的oozie文件夹给改个名字,因为解压编译好的oozie文件夹名字和原来的名字一样,会覆盖掉。我把没编译的oozie文件夹命名为oozie-4.3.1.uncompiled,解压之后的编译后版本是oozie-4.3.1。
解压刚编译好的oozie:
tar -xzvf oozie-4.3.1-distro.tar.gz
修改~/.bash_profile
命令行输入:
vim ~/.bash_profile
在里面加入下面三行:
export