hive的row_number()、rank()和dense_rank()的区别以及具体使用

 

参考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1

2016年10月17日 20:05:21

阅读数:4931

row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。

  • 首先创建一个文件test:

A,1 B,3 C,2 D,3 E,4 F,5 G,6

  •  
  • 然后创建hive表:

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;

  • 1
  • load数据到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;

  • 1
  • 执行下面的语句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;

  • 1
  • 2

结果为:

a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6

由此可见: 

row_number:不管排名是否有相同的,都按照顺序1,2,3…..n 

rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次 

dense_rank:排名相同的名次一样,且后面名次不跳跃

实际使用: 

现在有一个需求: 需要加工一张表M 其中要求要A表,B表,C表的数据加工,A和B表连接字段都是唯一值,但是和C表连接的字段不唯一,如果A join B,然后再Join C 这样加工出来的表数据会不准确,这里需求是需要最新的C表中关联字段的数据。 

可以按照如下方法解决(c2是C表的关联字段,通过update_time的降序取最新的那条数据):

select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;

  •  

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_20641565/article/details/52841345

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值