spark-sql性能优化之——动态实现多个列应用同一个函数

 

在对一个dataframe的多个列实现应用同一个函数时,是否能动态的指定?

例如:

对A,B,C三列实现分组统计

1.初始化spark,构建DF

  val spark = SparkSession.builder()
    .appName("name")
    .master("local[2]")
    .getOrCreate()
  val df = spark.read.json("src\\main\\resources\\json.txt")

2.静态实现

  val newDF = df
    .withColumn("cumA", sum("A").over(Window.partitionBy("ID").orderBy("time")))
    .withColumn("cumB", sum("B").over(Window.partitionBy("ID").orderBy("time")))
    .withColumn("cumC", sum("C").over(Window.partitionBy("ID").orderBy("time")))

3. 动态实现

3.1 方法一:select 实现

复制代码

  import spark.implicits._

  df.select($"*" +: Seq("A", "B", "C").map(c =>
    sum(c).over(Window.partitionBy("ID").orderBy("time")).alias(s"cum$c")
  ): _*)

  //定义函数
   def withColumns(cols : Seq[String],df : DataFrame,f : String => Column) = {
     df.select($"*" +: cols.map(c => f(c)) : _*)
  }

复制代码

3.2 方法二:foldLeft实现

复制代码

  
  Seq("A", "B", "C").foldLeft(df)((df, c) =>
    df.withColumn(s"cum$c",  sum(c).over(Window.partitionBy("ID").orderBy("time")))
  )

  //定义函数
  def withColumn(cols : Seq[String],df : DataFrame,f : String => Column,
                 name : String => String = identity) = {
    cols.foldLeft(df)((df,c) => df.withColumn(name(c),f(c)))
  }

复制代码

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
开窗函数Spark SQL中是一种用于对结果集进行分析和聚合计算的功能。它可以对结果集按照指定的分区进行分组,并在每个分组中进行聚合计算。开窗函数在解决一些复杂的问题时非常有用,可以简化SQL语句的编写,并提高查询效率。 Spark SQL中的开窗函数可以通过使用窗口规范来定义,窗口规范包括分区和排序的规则。分区规则用于将结果集划分为不同的分组,而排序规则用于在每个分组中确定计算的顺序。 通过使用开窗函数,您可以在同一SELECT语句中同时使用多个开窗函数,并且它们之间不会相互干扰。例如,您可以使用COUNT函数来计算每个分组中的记录数,或者使用RANK函数来计算每个分组中的排名。 以下是一个使用Spark SQL的开窗函数的示例: ```spark sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY class) AS name_count1 FROM score").show() sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY score) AS name_count2 FROM score").show() ``` 在这个示例中,第一个SELECT语句使用COUNT函数,按照班级进行分组,并计算每个班级中的学生数量。第二个SELECT语句使用COUNT函数,按照分数进行分组,并计算每个分数对应的学生数量。 总之,Spark SQL的开窗函数是一种强大的工具,可以帮助您对结果集进行灵活的分析和聚合计算。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Spark SQL 之开窗函数](https://blog.csdn.net/weixin_39966065/article/details/93099293)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Spark SQL——开窗函数](https://blog.csdn.net/weixin_44240370/article/details/103322615)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值