row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。
// 1.首先创建一个文件test:
A,1
B,3
C,2
D,3
E,4
F,5
G,6
// 2.然后创建hive表:
create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;
// 3.load数据到表中
load data local inpath '/opt/module/datas/test.txt' overwrite into table test_rank;
//4.执行下面的语句
select a,row_number() over(order by b) row_number,rank() over(order by b) rank,
dense_rank() over(order by b) dense_rank from test_rank;
结果为:
a row_number rank dense_rank
A 1 1 1
C 2 2 2
D 3 3 3
B 4 3 3
E 5 5 4
F 6 6 5
G 7 7 6
//5. 由此可见:
row_number:不管排名是否有相同的,都按照顺序1,2,3…..n
rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次
dense_rank:排名相同的名次一样,且后面名次不跳跃