oozie单独调用spark的过程中,也是问题多多。
首先,你的spark程序肯定是要能单独跑过的。另外spark运行任务的几种方式的区别。
spark运行模式 这篇博客有讲。
然后看我的一些配置吧,测试中碰到各种问题,关于这方面详细讲解的资料不多,只能一点点摸索尝试。
我的环境是用CM安装的。
job.properties
nameNode=hdfs://nameservice1
jobTracker=yarnRM
queueName=default
examplesRoot=examples
master=yarn
oozie.libpath=${nameNode}/user/root/share/lib/lib_20160720142030/spark
oozie.use.system.libpath=true
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/spark
spark运行在yarn client上
workflow.xml
不能直接放xml格式文件,会出乱码,我就截图好了
图片中的jar包的位置一定要放对。
标签中的一些乱七八糟的配置,我也不知道哪些有用了,日志中反正都正确读出来了,也没有什么错误,要注意一点的就是 --conf 的格式。
还有一个很重要的问题就是 spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar 这个jar包,
在你的hdfs上路径下是没有的,需要你自己上传。
CM安装的在这个路径下有 /opt/cloudera/parcels/CDH/lib/spark/lib
上传到hdfs的spark的lib目录下就可以了。
可以参考下面的资料,
http://www.yidianzixun.com/home?page=article&id=0CC4Yez4
https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html#Spark_on_YARN
还有疑问也可发邮件给我一起交流。