【SparkSQL】开窗函数的介绍及其使用

最新推荐文章于 2022-03-15 00:41:27 发布

没去过埃及的法老

最新推荐文章于 2022-03-15 00:41:27 发布

阅读量1.1k

点赞数 1

分类专栏： Sprak 文章标签： spark 大数据聚合开窗函数排序开窗函数开窗函数

本文链接：https://blog.csdn.net/qq_41369191/article/details/105975683

版权

Sprak 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

介绍

开窗函数的引入是为了既显示聚集（或排序）前的数据，又显示聚集（或排序）后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。

聚合函数和开窗函数

聚合函数是将多行变成一行，count,avg.

开窗函数是将一行变成多行

聚合函数如果要显示其他的列必须将列加入到group by中

开窗函数可以不使用group by，直接将所有信息显示出来

开窗函数分类

聚合开窗函数

聚合函数(列) OVER(选项)，这里的选项可以是PARTITION BY 子句，但不可以是 ORDER BY 子句。

排序开窗函数

排序函数(列) OVER(选项)，这里的选项可以是ORDER BY 子句，也可以是OVER(PARTITION BY 子句 ORDER BY 子句)，但不可以是 PARTITION BY 子句。

聚合开窗函数

OVER 关键字表示把聚合函数当成聚合开窗函数而不是聚合函数。

SQL标准允许将所有聚合函数用做聚合开窗函数。

spark.sql("select name, class, score, count(name) over() name_count from scores").show

OVER 关键字后的括号中还可以添加选项用以改变进行聚合运算的窗口范围

如果 OVER 关键字后的括号中的选项为空，则开窗函数会对结果集中的所有行进行聚合运算。开窗函数的 OVER 关键字后括号中的可以使用 PARTITION BY 子句来定义行的分区来供进行聚合计算。与 GROUP BY 子句不同，PARTITION BY 子句创建的分区是独立于结果集的，创建的分区只是供进行聚合计算的，而且不同的开窗函数所创建的分区也不互相影响

spark.sql("select name, class, score, count(name) over(partition by class) name_count from scores").show

排序开窗函数

ROW_NUMBER顺序排序

row_number() over(order by score) as rownum 表示按score 升序的方式来排序，并得出排序结果的序号，在排序开窗函数中使用 PARTITION BY 子句需要放置在ORDER BY 子句之前

spark.sql("select name, class, score, row_number() over(order by score) rank from scores").show()

spark.sql("select name, class, score, row_number() over(partition by class order by score) rank from scores").show()

RANK跳跃排序

rank() over(order by score) as rank表示按 score升序的方式来排序，并得出排序结果的排名号。这个函数求出来的排名结果可以并列（并列第一/并列第二），并列排名之后的排名将是并列的排名加上并列数，简单说每个人只有一种排名，然后出现两个并列第一名的情况，这时候排在两个第一名后面的人将是第三名，也就是没有了第二名，但是有两个第一名

spark.sql("select name, class, score, rank() over(order by score) rank from scores").show()

spark.sql("select name, class, score, rank() over(partition by class order by score) rank from scores").show()

DENSE_RANK连续排序

dense_rank() over(order by score) as dense_rank 表示按score 升序的方式来排序，并得出排序结果的排名号。这个函数并列排名之后的排名是并列排名加１，简单说每个人只有一种排名，然后出现两个并列第一名的情况，这时候排在两个第一名后面的人将是第二名，也就是两个第一名，一个第二名

spark.sql("select name, class, score, dense_rank() over(order by score) rank from scores").show()

spark.sql("select name, class, score, dense_rank() over(partition by class order by score) rank from scores").show()

NTILE分组排名

ntile(6) over(order by score)as ntile表示按 score 升序的方式来排序，然后 6 等分成 6 个组，并显示所在组的序号。

spark.sql("select name, class, score, ntile(6) over(order by score) rank from scores").show()

spark.sql("select name, class, score, ntile(6) over(partition by class order by score) rank from scores").show()

代码

//创建SparkSession
val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()

//根据SparkSession创建SparkContext
val sc: SparkContext = spark.sparkContext

//创建数据
val scoreDF = spark.sparkContext.makeRDD(Array(
  Score("a1", 1, 80),
  Score("a2", 1, 78),
  Score("a3", 1, 95),
  Score("a4", 2, 74),
  Score("a5", 2, 92),
  Score("a6", 3, 99),
  Score("a7", 3, 99),
  Score("a8", 3, 45),
  Score("a9", 3, 55),
  Score("a10", 3, 78),
  Score("a11", 3, 100))
)

//将RDD转成DF
//注意:RDD中原本没有toDF方法,新版本中要给它增加一个方法,可以使用隐式转换
import spark.implicits._
var dfDats = scoreDF.toDF("name", "class", "score")

//设置表
dfDats.createOrReplaceTempView("scores")

//聚合开窗函数
//OVER 关键字表示把聚合函数当成聚合开窗函数而不是聚合函数
//SQL标准允许将所有聚合函数用做聚合开窗函数
spark.sql("select  count(name)  from scores").show
spark.sql("select name, class, score, count(name) over() name_count from scores").show

//显示按照班级分组后每组的人数
//OVER(PARTITION BY class)表示对结果集按照 class 进行分区，并且计算当前行所属的组的聚合计算结果。
spark.sql("select name, class, score, count(name) over(partition by class) name_count from scores").show


//排序开窗函数
//ROW_NUMBER顺序排序
//row_number() over(order by score) as rownum 表示按score 升序的方式来排序，并得出排序结果的序号
spark.sql("select name, class, score, row_number() over(order by score) rank from scores").show()

//在排序开窗函数中使用 PARTITION  BY 子句需要放置在ORDER  BY 子句之前。
spark.sql("select name, class, score, row_number() over(partition by class order by score) rank from scores").show()

//RANK跳跃排序
//rank() over(order by score) as rank表示按 score升序的方式来排序，并得出排序结果的排名号。
//这个函数求出来的排名结果可以并列（并列第一/并列第二），并列排名之后的排名将是并列的排名加上并列数
spark.sql("select name, class, score, rank() over(order by score) rank from scores").show()
spark.sql("select name, class, score, rank() over(partition by class order by score) rank from scores").show()

//DENSE_RANK连续排序
//dense_rank() over(order by  score) as  dense_rank 表示按score 升序的方式来排序，并得出排序结果的排名号
//这个函数并列排名之后的排名是并列排名加１
//简单说每个人只有一种排名，然后出现两个并列第一名的情况，这时候排在两个第一名后面的人将是第二名，也就是两个第一名，一个第二名
spark.sql("select name, class, score, dense_rank() over(order by score) rank from scores").show()
spark.sql("select name, class, score, dense_rank() over(partition by class order by score) rank from scores").show()

//NTILE分组排名
//ntile(6) over(order by score)as ntile表示按 score 升序的方式来排序，然后 6 等分成 6 个组，并显示所在组的序号
spark.sql("select name, class, score, ntile(6) over(order by score) rank from scores").show()
spark.sql("select name, class, score, ntile(6) over(partition by class order by score) rank from scores").show()

没去过埃及的法老

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【SparkSQL】开窗函数的介绍及其使用

目录介绍聚合开窗函数排序开窗函数代码介绍开窗函数的引入是为了既显示聚集（或排序）前的数据，又显示聚集（或排序）后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。聚合函数和开窗函数...
复制链接

扫一扫

专栏目录