Spark 使用局部聚合+全局聚合解决数据倾斜问题

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

例如,reduced端一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * 使用局部聚合+全局聚合解决数据倾斜问题
 */
object _DataSkewDemo {
    def main(args: Array[String]): Unit = {

        val spark: SparkSession = SparkSession
          .builder()
          .master("local[*]")
          .appName(" ")
          .getOrCreate()

        import spark.implicits._

        //1.自创一个简单RDD进行模拟倾斜
        val rdd: RDD[String] = spark.sparkContext.makeRDD(List("a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a,a", "b,c,d,e,f", "b,b,c,c,d,e,f,g", "a,b,a,c,f"))

        //2.将RDD转成DF
        val df: DataFrame = rdd.toDF("line")
        df.createTempView("temp")
        /**
         * 3.   具体实现步骤
         * 1)   在单词前面拼接随机数,如0,1,2,3
         * 2)   将加上前缀的单词,进行预聚合
         * 3)   去掉前缀,进行全局聚合
         */
        val sql =
            """
              |select substr(prefix_word,instr(prefix_word,"-")+1) w,sum(num)
              |from(
              |select prefix_word,count(1) num
              |from(
              |select concat(floor(rand()*4),"-",word) prefix_word
              |from(
              |select explode(split(line,",")) word
              |from temp) t1
              |) t2
              |group by prefix_word
              |) t3
              |group by w
              |""".stripMargin

        //4.显示数据
        spark.sql(sql).show()
        spark.stop()
    }
}

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值