关于Spark on Yarn的一些经历

1、ERROR spark.SparkContext: Error initializing SparkContext 

org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.

这是因为jdk为java 8的原因。

在所有节点上的yarn-site.xml上加上:

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

重启一下start-all.sh就可以

2、Name node is in safe mode

WARN Client: Failed to cleanup staging dir

The reported blocks 38 has reached the threshold 0.9990 of total blocks 38. The number of live datanodes 3 has reached the minimum number 0. In safe mode extension. Safe mode will be turned off automatically in 9 seconds.

解决方法:https://blog.csdn.net/xw13106209/article/details/6866072    

输入hadoop dfsadmin -safemode leave

3、Neither spark.yarn.jars nor spark.yarn.archive is set

解决方法:

命令行输入:

hadoop fs -mkdir   /spark_jars

hadoop fs -put /spark/jars/*  /spark_jars

然后在spark的conf的spark-default.conf

添加配置 :spark.yarn.jars   hdfs://master:9000/spark_jars/*

4、Spark on YARN配置日志Web UI

1)在spark的conf的spark-default.conf

添加配置:(见http://blog.51cto.com/beyond3518/1787513http://www.cnblogs.com/luogankun/p/3981645.html

spark.eventLog.enabled             true
spark.eventLog.dir                 hdfs://master:9000/spark_logs
spark.yarn.historyServer.address   master:18080

2)在spark的conf的spark-env.sh

添加配置:

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://master:9000/spark_logs"

注意,history.fs.logDirectory和上面的eventLog需要同一个文件。(见https://www.cnblogs.com/langfanyun/p/7788784.html

3)在hadoop的yarn-site.xml配置加入:

<property>
  <name>yarn.resourcemanager.webapp.address</name>
  <value>bigdata01:8088</value>
</property>

这样,就可以直接从hadoop界面跳进spark web(见https://www.jianshu.com/p/ea85d074a494

4)重启hadoop,然后启动./sbin/start-history-server.sh,就可以。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark on YARN是一种常用的Spark运行模式,它可以在Hadoop YARN集群上运行。Spark on YARN支持两种提交任务的方式,即YARN client模式和YARN cluster模式。在YARN client模式下,Spark驱动程序运行在客户端上,而在YARN cluster模式下,Spark驱动程序运行在YARN集群上。 在使用Spark on YARN时,可以使用以下命令提交作业: ``` ./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100 ``` 这个命令将以YARN cluster模式提交一个Spark作业,其中`--master yarn`表示使用YARN作为Spark的主节点,`--deploy-mode cluster`表示以集群模式运行作业,`--class org.apache.spark.examples.SparkPi`指定了作业的入口类,`../lib/spark-examples-xx.jar`是作业的jar包路径,`100`是作业的参数。 另外,还可以使用以下命令以YARN client模式提交作业: ``` ./spark-submit --master yarn-client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100 ``` 这个命令将以YARN client模式提交一个Spark作业,其中`--master yarn-client`表示使用YARN作为Spark的主节点,并将驱动程序运行在客户端上。 通过以上命令,可以在Spark on YARN上成功提交和运行Spark作业。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* *3* [Spark on Yarn详解](https://blog.csdn.net/WuBoooo/article/details/109479311)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值