SparkSQL - 常见问题

Spark广播超时问题排查与优化

原创

于 2023-11-02 11:48:55 发布 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#数据仓库

1、广播超时

参考资料：https://www.ai2news.com/blog/3041168/

报错信息：

Caused by: org.apache.spark.SparkException: Could not execute broadcast in 300 secs. You can increase the timeout for broadcasts via spark.sql.broadcastTimeout or disable broadcast join by setting spark.sql.autoBroadcastJoinThreshold to -1
	at org.apache.spark.sql.execution.adaptive.BroadcastQueryStageExec$$anon$1.run(QueryStageExec.scala:213)

根据经验，首先排查：
（1）网络传输（问运维同学）
（2）广播超时时间阈值太小（查看集群配置的广播超时时间阈值）
（3）广播变量的数据量是否太大（查看集群配置的自动广播阈值大小）

解决方案：