Oozie运行python的spark job…

本文档记录了在Oozie上运行PySpark程序时遇到的困难,包括找不到pyspark库、spark-submit运行错误、OOzie提交作业失败等问题。尝试了多种解决方案,如设置SPARK_HOME环境变量、修改master配置、添加文件到HDFS、使用shell启动spark-submit、调整Oozie Share Lib等,并最终成功解决了py4j.zip和pyspark.zip缺失的问题,但仍然存在其他运行错误。
摘要由CSDN通过智能技术生成
尝试在oozie上运行pyspark程序:
先配置yarn-env.sh以解决找不到pyspark库等的问题
export SPARK_HOME=/usr/share/spark

$ hdfs dfs -copyFromLocal py4j.zip /user/oozie/share/lib/spark
$ hdfs dfs -copyFromLocal pyspark.zip /user/oozie/share/lib/spark
【问题没有解决】

现在先解决单独用spark-submit运行的问题,再解决通过oozie运行的问题。
单独用spark-submit运行,不带参数,可以成功
带 --master yarn-cluster   会失败,在8088里面提示这样的错误

Application application_1486993422162_0016 failed 2 times due to AM Container for appattempt_1486993422162_0016_000002 exited with exitCode: -1000
For more detailed output, check application tracking page:http://bigdata-master:8088/cluster/app/application_1486993422162_0016Then, click on links to logs of each attempt.
Diagnostics: File does not exist: hdfs://bigdata/user/hadoop/.sparkStaging/application_1486993422162_0016/spark1.py
java.io.FileNotFoundException: File does not exist: hdfs://bigdata/user/hadoop/.sparkStaging/application_1486993422162_0016/spark1.py
     at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.

【尝试一】把py里面的
#     conf = conf.setMaster("local[*]")   注释掉,让spark自动选取运行的master
再次运行这样的命令:
spark-submit --master yarn-cluster pythonApp/lib/spark1.py
【成功,8088那儿不报错了!】
【失败,去掉local[*]后,单独spark-submit会造成17/02/15 16:18:11 ERROR SparkDeploySchedulerBack end: Application has been killed. Reason: All masters are unresponsive! Giving up.】



【尝试二(未尝试)】在尝试一的基础上:
SparkConf sc中添加路径
sc.addFile("hdfs:<filepath_on_hdfs>/optimize-spark.py")

【放到oozie那儿还是报错找不到py4j.zip和pyspark.zip】
【尝试一】
更改job里面的properties
把master从local[*]改成yarn-cluster </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值