Spark Sql 处理groupby 的数据倾斜问题

最新推荐文章于 2022-10-21 11:52:09 发布

ZhuangYQ丶

最新推荐文章于 2022-10-21 11:52:09 发布

阅读量1.4k

点赞数 3

分类专栏： Spark 大数据学习

本文链接：https://blog.csdn.net/iilegend/article/details/97682621

版权

写sql处理使用groupby 产生的数据倾斜问题：

import java.util.Random

import org.apache.spark.sql.SparkSession

object TestUDF {
  def main(args: Array[String]): Unit = {
    val spark =
      SparkSession.builder()
        .appName("TestUDF")
        .enableHiveSupport()
        .getOrCreate()


    spark.udf.register("random_prefix", (value: Int, num: Int) => randomPrefixUDF(value, num))
    spark.udf.register("remove_random_prefix", (value: String) => removeRandomPrefixUDF(value))

    // 加随机前缀
    val sql1 =
      s"""
         |select
         |  random_prefix(name, 6) product,
         |  id
         |from
         |  ggg.test
       """.stripMargin

    // 分组求和
    val sql2 =
      s"""
         |select
         |  product,
         |  sum(id) click
         |from
         |  (
         |    select
         |      random_prefix(name, 6) product,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZhuangYQ丶

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark Sql 处理groupby 的数据倾斜问题

写sql处理使用groupby 产生的数据倾斜问题：import java.util.Randomimport org.apache.spark.sql.SparkSessionobject TestUDF { def main(args: Array[String]): Unit = { val spark = SparkSession.builder()...
复制链接

扫一扫