Spark Shuffle过程报错org.apache.spark.shuffle.MetadataFetchFailedException

最新推荐文章于 2023-07-26 11:38:52 发布

loulucy

最新推荐文章于 2023-07-26 11:38:52 发布

阅读量890

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/loulucy/article/details/119946233

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

具体错误提示：

Most recent failure reason: **org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 18** at org.apache.spark.MapOutputTracker$$anonfun$convertMapStatuses$2.apply(MapOutputTracker.scala:882) at org.apache.spark.MapOutputTracker$$anonfun$convertMapStatuses$2.apply(MapOutputTracker.scala:878) at scala.collection.Iterator$class.foreach(Iterator.scala:891) at scala.collection.AbstractIterator.foreach(Iterator.scala:1334) at org.apache.spark.MapOutputTracker$.convertMapStatuses(MapOutputTracker.scala:878) at org.apache.spark.MapOutputTrackerWorker.getMapSizesByExecutorId(MapOutputTracker.scala:691) at org.apache.spark.shuffle.BlockStoreShuffleReader.read(BlockStoreShuffleReader.scala:49) at org.apache.spark.sql.execution.ShuffledRowRDD.compute(ShuffledRowRDD.scala:165)

解决方案：
调大executor memory,
例如 .set(“spark.executor.memory”, “10g”)

 spark_conf = SparkConf().setAppName(
        job_name).set(
        "spark.sql.sources.partitionOverwriteMode", "dynamic"
    ).set(
        "fs.s3a.access.key", os.getenv('AWS_ACCESS_KEY_ID')
    ).set(
        "fs.s3a.secret.key", os.getenv('AWS_SECRET_ACCESS_KEY')
    ).set(
        "fs.s3a.endpoint", "xxxxxxx.amazonaws.com"
    ).set(
        "fs.s3a.block.size", "134217728"
    ).set("spark.executor.memory", "10g")

也有文章提到考虑是否有数据倾斜，做repartition，暂无此种尝试。

loulucy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Shuffle过程报错org.apache.spark.shuffle.MetadataFetchFailedException

具体错误提示：Most recent failure reason: **org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 18** at org.apache.spark.MapOutputTracker$$anonfun$convertMapStatuses$2.apply(MapOutputTracker.scala:882) at org.apache.spar
复制链接

扫一扫