Hive 组内排序,计算TopN

需求场景,组内排序,例如统计某个用户前10次消费金额,如求某个相同id或组内的top值

步骤一,创建测试表

create table tmp_partition_test 
(
name string,
subject string,
score int
)

步骤二,插入测试数据

insert into tmp_partition_test (name,subject,score)
values  ('张多','语文',87    );
insert into tmp_partition_test (name,subject,score)
values  ('张多','数学',95)    ;
insert into tmp_partition_test (name,subject,score)
values  ('张多','英语',68)    ;
insert into tmp_partition_test (name,subject,score)
values  ('王就','语文',94)    ;
insert into tmp_partition_test (name,subject,score)
values  ('王就','数学',56)    ;
insert into tmp_partition_test (name,subject,score)
values  ('王就','英语',84)    ;
insert into tmp_partition_test (name,subject,score)
values  ('蔡结','语文',64)    ;
insert into tmp_partition_test (name,subject,score)
values  ('蔡结','数学',86)    ;
insert into tmp_partition_test (name,subject,score)
values  ('蔡结','英语',84)    ;
insert into tmp_partition_test (name,subject,score)
values  ('金胡','语文',65)    ;
insert into tmp_partition_test (name,subject,score)
values  ('金胡','数学',85)    ;
insert into tmp_partition_test (name,subject,score)
values  ('金胡','英语',78)    ;

步骤二,进行数据查询,对比结果

select name,subject,score,
rank() over(partition by subject order by score desc) rp,    --RANK() 排序相同时会重复,总数不会变
dense_rank() over(partition by subject order by score desc) drp,  --DENSE_RANK() 排序相同时会重复,总数会减少
row_number() over(partition by subject order by score desc) rmp   --ROW_NUMBER() 会根据顺序计算
from tmp_partition_test;

参考连接:hive分组排序(rank函数+partiton实现) - 王怀宇 - 博客园 (cnblogs.com)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值