解决实际业务中出现的数据倾斜

中英汉语词典

已于 2022-09-14 21:12:32 修改

阅读量98

点赞数

分类专栏：大数据文章标签： spark 大数据 scala

于 2022-08-16 20:07:34 首次发布

本文链接：https://blog.csdn.net/qq_36251822/article/details/126373328

版权

大数据专栏收录该内容

9 篇文章 1 订阅

订阅专栏

解决Spark中出现的数据倾斜

使用重写UDAF完成Map端聚合来解决

业务背景:
为了求城市的热门栅格的相关属性需要关联用户拉链表和城市栅格表来做分析
但是热门栅格的人数和非热门栅格的差别过大会导致数据倾斜

具体实现:

package com.exmaple
 
import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._

class ActionMapUDAF extends UserDefinedAggregateFunction {
  override def inputSchema: StructType = {
  //	定义输入格式
    StructType(
      StructField("action_datetime", StringType) ::
        StructField("action_info", StringType) :: Nil)
  }

  override def bufferSchema: StructType = {
  //	定义存储中间结果的状态格式
    StructType(StructField("hashmap", MapType(StringType, StringType)) :: Nil)
  }

  override def dataType: DataType = {
  //	最终的输出格式
    MapType(StringType, StringType)
  }

  override def deterministic: Boolean = {
  //	对给定的一组输入值,UDAF的输出值是否相同
    true
  }

  override def initialize(buffer: MutableAggregationBuffer): Unit = {
  //	初始化
    buffer(0) = Map()
  }

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
  //	Reduce的更新操作:如何根据一行新数据, 更新一个聚合buffer的中间结果
    val map1 = buffer.getAs[Map[String, String]](0)
    val key = input.getAs[String](0)
    val value = input.getAs[String](1)
    buffer(0) = map1 + (key -> value)
  }

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
  //	Reduce的merge操作:两个buffer结果合并到其中一个bufer上
    var mp1 = buffer1.getAs[Map[String, String]](0)
    var mp2 = buffer2.getAs[Map[String, String]](0)
    buffer1(0) = mp1 ++ mp2.map{ case (k, v) => k -> (v + "," + mp1.getOrElse(k, "")) }
  }

  override def evaluate(buffer: Row): Any = {
  //	最终的结果
    buffer.getAs[Map[String, String]](0)
  }
}