转载:http://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1
row_number()、rank()和dense_rank()这三个是Hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。
- 首先创建一个文件test:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 然后创建hive表:
- 1
- 1
- load数据到表中
- 1
- 1
- 执行下面的语句
- 1
- 2
- 1
- 2
结果为:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
由此可见:
row_number:不管排名是否有相同的,都按照顺序1,2,3…..n
rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次
dense_rank:排名相同的名次一样,且后面名次不跳跃
实际使用:
现在有一个需求: 需要加工一张表M 其中要求要A表,B表,C表的数据加工,A和B表连接字段都是唯一值,但是和C表连接的字段不唯一,如果A join B,然后再Join C 这样加工出来的表数据会不准确,这里需求是需要最新的C表中关联字段的数据。
可以按照如下方法解决(c2是C表的关联字段,通过update_time的降序取最新的那条数据):