Spark 2.0常用聚合函数以及其他常用函数

最新推荐文章于 2024-05-16 08:55:08 发布

chixushuchu

最新推荐文章于 2024-05-16 08:55:08 发布

阅读量2.4k

点赞数

分类专栏：实战 spark 文章标签： Spark2.0常用聚合函数以及其他常用函数

本文链接：https://blog.csdn.net/chixushuchu/article/details/85337213

版权

实战同时被 2 个专栏收录

61 篇文章 2 订阅

订阅专栏

spark

44 篇文章 1 订阅

订阅专栏

官网聚合函数api
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$

avg sum max min count countDistinct

package com.scala.spark.function

import org.apache.spark.sql.SparkSession

object AggregateFunctionAndOtherFunction {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("untyped").master("local").getOrCreate()
        import spark.implicits._
        import org.apache.spark.sql.functions._
        val employee=spark.read.json("employee")
        val department=spark.read.json("department")

//        employee.join(department,$"depId"===$"id")
//        .groupBy(department("name"))
//            .agg(round(avg(employee("salary")),2).alias("平均工资"),sum(employee("salary")).alias("总工资")
//            ,min(employee("salary")).alias("最低工资"),count(employee("name")).alias("多少个")
//                ,countDistinct(employee("name")).alias("去重个数")
//            )
//            .show()
        employee
            .join(department, $"depId" === $"id")
            .groupBy(department("name"))
            .agg(avg(employee("salary")), sum(employee("salary")), max(employee("salary")), min(employee("salary")), count(employee("name")), countDistinct(employee("name")))
            .show()




    }


}

在这里插入图片描述


        employee.select(employee("name"),current_date(),current_timestamp(),rand(),concat(employee("name"),employee("age")),concat_ws("//",employee("name"),employee("age")))
            .show()

在这里插入图片描述