【Spark】执行join或者groupby时报错 Futures timed out after [XXX seconds]

最新推荐文章于 2024-05-13 00:27:43 发布

KeinoJust

最新推荐文章于 2024-05-13 00:27:43 发布

阅读量788

点赞数

分类专栏： Bigdata_Spark Bigdata_离线平台 Develop_Idea 文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_41998764/article/details/125192422

版权

Bigdata_Spark 同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

Develop_Idea

4 篇文章 0 订阅

订阅专栏

Bigdata_离线平台

3 篇文章 0 订阅

订阅专栏

【Spark】执行join或者groupby时报错 Futures timed out after [XXX seconds]

报错代码
报错信息
解决方式
本人解决方式

报错代码

报错代码这里不便贴出来，请谅解。
该语句其实是一个比较复杂的sql，内部有多重join，其中更是存在无对应键的join，纯属于笛卡尔积【业务需求，必须如此】。在执行该业务逻辑时，大概每次都是执行20分钟左右会抛出错误。

报错信息

Caused by: java.util.concurrent.TimeoutException: Futures timed out after [1200 seconds]
    at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)
    at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)
    at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:201)
    at org.apache.spark.sql.execution.exchange.BroadcastExchangeExec.doExecuteBroadcast(BroadcastExchangeExec.scala:136)

解决方式

①因为是执行时存在超时未反应情况，所以存在资源不足的原因，资源如果充足可能就不会有如此长的时间去等待。第一种方式就是调节资源
spark.executor.cores
spark.num.executors
spark.executor.instances
spark.driver.memory
spark.executor.memory

②既然是广播超时，那么可以设置参数禁用，这样一来虽然会执行的慢，但是不会报错该信息

spark.sql.autoBroadcastJoinThreshold 默认10M

意思是最大字节大小是用于当执行连接时，该表将广播到所有工作节点。默认10M，通过将此值设置为-1，广播可以被禁用

③不禁止使用广播的前提下，提高广播超时时间

.config(“spark.sql.broadcastTimeout”, 20 * 60)

val spark = SparkSession
  .builder()
  .config("spark.sql.broadcastTimeout", 20 * 60)
  .config("spark.sql.crossJoin.enabled", true)
  .config("odps.exec.dynamic.partition.mode", "nonstrict")
  .getOrCreate()