SparkSQL 之rank() over, dense_rank(), row_number() 的区别

假设现在有一张学生表student,学生表中有姓名、分数、课程编号,现在我需要按照课程对学生的成绩进行排序。

  select * from student

在这里插入图片描述

  1. rank over ()可以实现对学生排名,特点是成绩相同的两名是并列,如下1 2 2 4 5
  select name,
      course,
      rank() over(partition by course order by score desc) as rank
  from student;

在这里插入图片描述

  1. dense_rank()和rank over()很像,但学生成绩并列后并不会空出并列所占的名次,如下1 2 2 3 4
  select name,
      course,
      dense_rank() over(partition by course order by score desc) as rank
  from student;

在这里插入图片描述

  1. row_number这个函数不需要考虑是否并列,那怕根据条件查询出来的数值相同也会进行连续排名
  select name,
      course,
      row_number() over(partition by course order by score desc) as rank
  from student;

在这里插入图片描述

答疑:

  1. partition by用于给结果集进行分区。

  2. partition by和group by有何区别?
    partition by只是将原始数据进行名次排列(记录数不变)
    group by是对原始数据进行聚合统计(记录数可能变少, 每组返回一条)

  3. 使用rank over()的时候,空值是最大的,如果排序字段为null, 可能造成null字段排在最前面,影响排序结果。

可以这样: rank over(partition by course order by score desc nulls last)

转载自:https://www.linuxidc.com/Linux/2015-04/116349.htm

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值