hive的row_number()、rank()和dense_rank()的区别以及具体使用

最新推荐文章于 2024-07-29 09:03:14 发布

IT菜籽U

最新推荐文章于 2024-07-29 09:03:14 发布

阅读量1.4k

点赞数

分类专栏： Hive

Hive 专栏收录该内容

71 篇文章 5 订阅

订阅专栏

转载：http://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1

row_number()、rank()和dense_rank()这三个是Hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。

首先创建一个文件test：

A,1
B,3
C,2
D,3
E,4
F,5
G,6
 
 1
2
3
4
5
6
7
 
 1
2
3
4
5
6
7

然后创建hive表：

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;
 
 1
 
 1

load数据到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;
 
 1
 
 1

执行下面的语句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank,
dense_rank() over(order by b) dense_rank from lijie.test_rank;
 
 1
2
 
 1
2

结果为：

a   row_number  rank    dense_rank
A       1        1          1
C       2        2          2
D       3        3          3
B       4        3          3
E       5        5          4
F       6        6          5
G       7        7          6
 
 1
2
3
4
5
6
7
8
 
 1
2
3
4
5
6
7
8

由此可见：
row_number:不管排名是否有相同的，都按照顺序1，2，3…..n
rank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次
dense_rank:排名相同的名次一样，且后面名次不跳跃

实际使用：
现在有一个需求: 需要加工一张表M 其中要求要A表，B表，C表的数据加工，A和B表连接字段都是唯一值，但是和C表连接的字段不唯一，如果A join B，然后再Join C 这样加工出来的表数据会不准确，这里需求是需要最新的C表中关联字段的数据。
可以按照如下方法解决(c2是C表的关联字段，通过update_time的降序取最新的那条数据)：

select
    A.xxx,
    B.xxx,
    C.xxx,
    ....
from 
    A 
left outer join B 
    on A.c1 = B.c1
left outer join
(
    select 
        cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum 
    from 
        C cc
) C on A.c2 = C.c2 and C.rownum = 1;