Spark 3.0 大版本发布,Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core,成为新一代的引擎内核,所有其他子框架如 Mllib、Streaming 和 Graph,都可以共享 Spark SQL 的性能优化,都能从 Spark 社区对于 Spark SQL 的投入中受益。
要优化SparkSQL应用时,一定是要了解SparkSQL执行计划的。发现SQL执行慢的根本原因,才能知道应该在哪儿进行优化,是调整SQL的编写方式、还是用Hint、还是调参,而不是把优化方案拿来试一遍。
1准备测试用表和数据
1、上传3个log到hdfs新建的spa
本文介绍了Spark 3.0中Spark SQL的重要性和执行计划的详细过程,包括准备测试数据、基本语法如.explain()的不同模式,以及执行计划的五个核心步骤,如Unresolved、Resolved、Optimized Logical Plan和Physical Plan,重点讲解了物理执行计划中的各种运算符如HashAggregate、Exchange、Project和BroadcastHashJoin等。
订阅专栏 解锁全文
351

被折叠的 条评论
为什么被折叠?



