Spark SQL有关broadcast join的不生效问题2

最新推荐文章于 2023-09-06 10:24:39 发布

javartisan

最新推荐文章于 2023-09-06 10:24:39 发布

阅读量1.7k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/Dax1n/article/details/90412621

版权

Spark 专栏收录该内容

70 篇文章 0 订阅

订阅专栏

今天同事反应他的广播不生效，看了一下代码，它的代码样子如下：

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("BroadCastJoinLLocalDebug").master("local[*]").getOrCreate()
    val sc = spark.sparkContext

    val smallTable = spark.sql("small table sql")
    val bigTable = spark.sql("big table sql")

    val smallTableBroadCastValue = sc.broadcast(smallTable).value

    val result = bigTable.join(smallTableBroadCastValue, "joinkey")
    // action
    println(result.count())
    spark.stop()
  }

当时在猜想问题可能有两个：

1、sparkContext广播，当spark sql执行join时候无法拿到join的优化信息。

2、广播的是dataFrame这个变量，而不是里面的素有数据。

解决问题优先，解决方案：让他修改为使用spark sql broadcast function进行广播join，便生效解决问题！代码大概如下：

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("BroadCastJoinLLocalDebug").master("local[*]").getOrCreate()
    val smallTable = spark.sql("small table sql")
    val bigTable = spark.sql("big table sql")

    val result = bigTable.join(org.apache.spark.sql.functions.broadcast(smallTable), "joinkey")
    // action
    println(result.count())
    spark.stop()
  }

问题解决之后进行简单的本地debug看一下原因,打断点跟进了一下广播dataFrame的逻辑，重点看的是如何序列化dataFrame到内存的，org.apache.spark.broadcast.TorrentBroadcast#writeBlocks方法便是完成序列化，在此方法中调用org.apache.spark.storage.BlockManager#putSingle：