sql的开窗函数over()

6 篇文章 0 订阅
6 篇文章 0 订阅

sql的一大神器就是over()开窗函数,以前我经常使用的就是row_number()  over(partition by rowName order by rowName)别的都不熟悉,今天特简单做个总结,以便以后使用。

数据排序使用

  • row_number() over(partition by rowName ORDER BY rowName)
  1. row_number 的功能是为从第一行开始为每一行设置一个递增的数字
  • rank() over(partition by prov_name ORDER BY val_cnt)
  1. rank 是排名,我们从例子中看到,相同的是相同的数字,而且到了第三行,变成了 3
  • dense_rank() over(partition by prov_name ORDER BY val_cnt)
  1. dense_rank 和 rank 的区别是序号不递增,大家可以看到 1 下面是 2 。
  • sum/avg/count/min/max() over([partition by prov_name [ORDER BY val_cnt]]) 
  1. 有order by;按照排序连续累加;无order by,计算partition by后的聚合;over()中没有partition by,计算所有数据聚合函数
  • first_value/last_value/lag/lead() over([partition by prov_name [ORDER BY val_cnt]])
  1. first_value:是在窗口里面取到第一个值
  2. last_value:是在窗口里面取到最后一个值
  3. lag 是取当前行的下 N 条数据,并且可以设置默认值
  4. lead 是取当前行的上 N 条数据,并且可以设置默认值

最后引用个大神的案例:

select ID_1 ,
   SUM(ID_1) over(ORDER BY ID_2) default_sum,
   SUM(ID_1) over(ORDER BY ID_2 RANGE BETWEEN unbounded preceding AND     CURRENT ROW) range_unbound_sum,
    SUM(ID_1) over(ORDER BY ID_2 ROWS BETWEEN unbounded preceding AND CURRENT ROW) rows_unbound_sum,
  SUM(ID_1) over(ORDER BY ID_2 RANGE BETWEEN 1 preceding AND 2 following) range_sum,
  SUM(ID_1) over(ORDER BY ID_2 ROWS BETWEEN 1 preceding AND 2 following) rows_sum

 from  (
 
   SELECT (CASE
   WHEN id IN (1, 2) THEN
   1
   WHEN id IN (4, 5) THEN
   6
   ELSE
   id 
   END) as ID_1,
   (CASE
   WHEN id IN (1, 2) THEN
   1
   WHEN id IN (4, 5) THEN
   6
   ELSE
   id 
   END) as ID_2
  FROM (
		    select 1 as id 
		    union all 
		    select 2 as id 
		    union all 
		    select 3 as id 
		    union all     
		    select 4 as id 
		    union all 
		    select 5 as id 
		    union all 
		    select 6 as id 
		    union all 
		    select 7 as id 
		    union all 
		    select 8 as id 
		    union all 
		    select 9 as id 
		    union all 
		      select 10 as id 
  ) as a 
  )    as b
     

结果:

 

从上面的例子可知:
1、窗口子句必须和order by 子句同时使用,且如果指定了order by 子句未指定窗口子句,则默认为RANGE BETWEEN unbounded preceding AND CURRENT ROW,如上例结果集中的defult_sum等于range_unbound_sum;
2、如果分析函数没有指定ORDER BY子句,也就不存在ROWS/RANGE窗口的计算;
3、range是逻辑窗口,是指定当前行对应值的范围取值,列数不固定,只要行值在范围内,对应列都包含在内,如上例中range_sum(即range 1 preceing and 2 following)例的分析结果:
当id=1时,是sum为1-1<=id<=1+2 的和,即sum=1+1+3=5(取id为1,1,3);
当id=3时,是sum为3-1<=id<=3+2 的和,即sum=3(取id为3);
当id=6时,是sum为6-1<=id<=6+2 的和,即sum=6+6+6+7+8=33(取id为6,6,6,7,8);
以此类推下去,结果如上例中所示。
4、rows是物理窗口,即根据order by 子句排序后,取的前N行及后N行的数据计算(与当前行的值无关,只与排序后的行号相关),如上例中rows_sum例结果,是取前1行和后2行数据的求和,分析上例rows_sum的结果:
当id=1(第一个1时)时,前一行没数,后二行分别是1和3,sum=1+1+3=5;
当id=3时,前一行id=1,后二行id都为6,则sum=1+3+6+6=16;

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
开窗函数在Spark SQL中是一种用于对结果集进行分析和聚合计算的功能。它可以对结果集按照指定的分区进行分组,并在每个分组中进行聚合计算。开窗函数在解决一些复杂的问题时非常有用,可以简化SQL语句的编写,并提高查询效率。 Spark SQL中的开窗函数可以通过使用窗口规范来定义,窗口规范包括分区和排序的规则。分区规则用于将结果集划分为不同的分组,而排序规则用于在每个分组中确定计算的顺序。 通过使用开窗函数,您可以在同一SELECT语句中同时使用多个开窗函数,并且它们之间不会相互干扰。例如,您可以使用COUNT函数来计算每个分组中的记录数,或者使用RANK函数来计算每个分组中的排名。 以下是一个使用Spark SQL开窗函数的示例: ```spark sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY class) AS name_count1 FROM score").show() sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY score) AS name_count2 FROM score").show() ``` 在这个示例中,第一个SELECT语句使用COUNT函数,按照班级进行分组,并计算每个班级中的学生数量。第二个SELECT语句使用COUNT函数,按照分数进行分组,并计算每个分数对应的学生数量。 总之,Spark SQL开窗函数是一种强大的工具,可以帮助您对结果集进行灵活的分析和聚合计算。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Spark SQL开窗函数](https://blog.csdn.net/weixin_39966065/article/details/93099293)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Spark SQL——开窗函数](https://blog.csdn.net/weixin_44240370/article/details/103322615)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值