Spark 多线程并行提交job

南风知我意丿

于 2023-03-31 14:42:34 发布

阅读量709

点赞数 1

分类专栏： Spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/Lzx116/article/details/129878982

版权

Spark 专栏收录该内容

57 篇文章 2 订阅

订阅专栏

文章目录

优化背景
串行处理
线程池并行处理
小结

优化背景

由于Driver的单线程运行以及Spark的任务调度决定了Job是串行执行的，但是当各个job之间的业务逻辑是相互独立的时候，我们就可以考虑多线程并行处理！

因为是测试：以下代码是单表(TMP)跑四次，实际情况下是多张表

串行处理

def main(args: Array[String]): Unit = {
    val watch = new StopWatch
    watch.start()
    val session: SparkSession = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[10]")
      .getOrCreate()
    val df: DataFrame = session.read
      .json("file:///C:\\Users\\HR\\Desktop\\测试数据\\courseshoppingcart.log")
    val df2: Dataset[Row] = df.coalesce(8)
    df2.createOrReplaceTempView("TMP")

    val list = List(
      "select * from TMP where courseid=103",
      "select * from TMP where courseid=101",
      "select * from TMP where courseid=9514",
      "select * from TMP where courseid=4894"
    )
    var sum=0L
    list.foreach(sql=>{
      sum+=session.sql(sql).count()
    })
    println(sum)
    watch.stop()
    println(watch.getTime)
    session.close()
  }

在这里插入图片描述

如上图所示：提交的四个任务是串行执行的

线程池并行处理

本地测试，本机10个cpu，4个job，每个job2个并行度也就是2个cpu。此时耗用8个cpu，所以不存在线程切换。

def main(args: Array[String]): Unit = {
    val watch = new StopWatch
    watch.start()
    val session: SparkSession = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[10]")
      .getOrCreate()
    val df: DataFrame = session.read
      .json("file:///C:\\Users\\HR\\Desktop\\测试数据\\courseshoppingcart.log")
    val df2: Dataset[Row] = df.coalesce(2) // 2个分区
    df2.createOrReplaceTempView("TMP")

    var executor: ExecutorService = null
    try {
      val list = List(
        "select * from TMP where courseid=103",
        "select * from TMP where courseid=101",
        "select * from TMP where courseid=9514",
        "select * from TMP where courseid=4894"
      )
      // 创建线程池
      executor = Executors.newWorkStealingPool(4)
      // 创建future以便于接收返回值
      val futureList = new util.ArrayList[Future[Integer]](4)
      list.foreach(sql => {
        val callable: Callable[Integer] = new Callable[Integer]() {
          override def call() = {
            session.sql(sql).count().toInt
          }
        }
        //接收返回值
        futureList.add(executor.submit(callable))
      })

      var sum = 0
      // 累加返回值
      futureList.forEach(future => {
        val res: Int = future.get().toInt //get是阻塞方法
        sum += res
      })
      println(sum)
    } finally {
      executor.shutdown()
      session.close()
    }
    watch.stop()
    println(watch.getTime)
  }