spark任务出现Lost executor报错的几点解决方案

最新推荐文章于 2024-04-10 22:30:00 发布

weixin_34113237

最新推荐文章于 2024-04-10 22:30:00 发布

阅读量2.1k

点赞数

文章标签：大数据 java python

原文链接：https://my.oschina.net/kyo4321/blog/2208922

版权

2019独角兽企业重金招聘Python工程师标准>>>

1、spark.executor.extraJavaOptions="-XX:MaxPermSize=1024m" 
2、spark.rpc.message.maxSize=1024
3、增加executor内存

executor默认的永久代内存是64K，可以看到永久代使用率长时间为99%，通过设置spark.executor.extraJavaOptions适当增大永久代内存，例如：–conf spark.executor.extraJavaOptions="-XX:MaxPermSize=64m"

spark.akka.frameSize是worker和driver通信的每块数据大小，控制Spark中通信消息的最大容量（如task的输出结果），默认为10M，当处理大量数据时，task的输出可能会大于这个值，需要根据实际数据设置一个更高的值。
可通过查看失败的 worker 的日志文件($SPARK_HOME/worker/下面的log文件) 中记录的任务的 Serialized size of result 是否超过10M来确定。

其中增加内存，可以通过设置spark.memory.fraction和spark.memory.storageFraction参数，相关参数的介绍说明详见如下链接
https://www.cnblogs.com/dreamfly2016/p/5720526.html

https://stackoverflow.com/questions/40781354/container-killed-by-yarn-for-exceeding-memory-limits-10-4-gb-of-10-4-gb-physic/42091255#42091255

参考配置如下，已测试通过

/app/spark/bin/spark-submit \
--master yarn \
--executor-cores 5 \
--executor-memory 10g \
--num-executors 40 \
--driver-memory 4g \
--conf spark.yarn.executor.memoryOverhead=51200 \
--conf spark.driver.maxResultSize="0" \
--conf spark.memory.fraction=0.8 \
--conf spark.memory.storageFraction=0.3 \
--conf spark.rpc.message.maxSize=1024 \
--conf spark.executor.extraJavaOptions="-XX:MaxPermSize=2048m" \
--conf spark.sql.shuffle.partitions=1000 \
--conf spark.default.parallelism=1000 \
--conf spark.network.timeout=2000s \
--jars /home/spark/user/xgboost4j-spark-0.7-jar-with-dependencies.jar \
--class com.xx.demo.model_train /home/spark/user/model_train_nWorkers_200_ParamGrid.jar

转载于:https://my.oschina.net/kyo4321/blog/2208922