Spark 使用局部聚合+全局聚合解决数据倾斜问题

最新推荐文章于 2022-04-07 16:53:11 发布

越过山丘才发现无人等候

最新推荐文章于 2022-04-07 16:53:11 发布

阅读量318

点赞数

分类专栏： BigData_Work 文章标签： spark big data sql

本文链接：https://blog.csdn.net/Dream_aju/article/details/121004985

版权

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

例如，reduced端一共要处理100万条数据，第一个和第二个task分别被分配到了1万条数据，计算5分钟内完成，第三个task分配到了98万数据，此时第三个task可能需要10个小时完成，这使得整个Spark作业需要10个小时才能运行完成，这就是数据倾斜所带来的后果。

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * 使用局部聚合+全局聚合解决数据倾斜问题
 */
object _DataSkewDemo {
    def main(args: Array[String]): Unit = {

        val spark: SparkSession = SparkSession
          .builder()
          .master("local[*]")
          .appName(" ")
          .getOrCreate()

        import spark.implicits._

        //1.自创一个简单RDD进行模拟倾斜
        val rdd: RDD[String] = spark.sparkContext.makeRDD(List("a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a", "b,c,d,e,f", "b,b,c,c,d,e,f,g", "a,b,a,c,f"))

        //