hive的row_number()、rank()和dense_rank()的区别以及具体使用

最新推荐文章于 2024-04-30 17:18:56 发布

利剑 -~

最新推荐文章于 2024-04-30 17:18:56 发布

阅读量586

点赞数

分类专栏：数据仓库文章标签： rank dense_rank

数据仓库专栏收录该内容

20 篇文章 1 订阅

订阅专栏

参考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1

2016年10月17日 20:05:21

阅读数：4931

row_number()、rank()和dense_rank()这三个是hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。

首先创建一个文件test：

A,1 B,3 C,2 D,3 E,4 F,5 G,6

然后创建hive表：

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;

1

load数据到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;

1

执行下面的语句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;

1
2

结果为：

a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6

由此可见：

row_number:不管排名是否有相同的，都按照顺序1，2，3…..n

rank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次

dense_rank:排名相同的名次一样，且后面名次不跳跃

实际使用：

现在有一个需求: 需要加工一张表M 其中要求要A表，B表，C表的数据加工，A和B表连接字段都是唯一值，但是和C表连接的字段不唯一，如果A join B，然后再Join C 这样加工出来的表数据会不准确，这里需求是需要最新的C表中关联字段的数据。

可以按照如下方法解决(c2是C表的关联字段，通过update_time的降序取最新的那条数据)：

select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_20641565/article/details/52841345

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive的row_number()、rank()和dense_rank()的区别以及具体使用

参考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&amp;fps=12016年10月17日 20:05:21阅读数：4931row_number()、rank()和dense_rank()这三个是hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。首先创建一个文...
复制链接

扫一扫

专栏目录

利剑 -~ CSDN认证博客专家 CSDN认证企业博客

码龄7年

115: 原创

2万+: 周排名

191万+: 总排名

40万+: 访问

: 等级

3473: 积分

690: 粉丝

57: 获赞

30: 评论

297: 收藏

私信

关注

热门文章

分类专栏

shell 1篇
nlp
spark 2篇
node 1篇
linux 15篇
python 29篇
hadoop 12篇
hbase 8篇
数据仓库 20篇
redis 5篇
mongodb 1篇
zookeeper 5篇
solr 4篇
flume 2篇
springboot 10篇
java 54篇
算法 17篇
mysql 15篇
mapreduce 4篇
scala 2篇
storm 2篇
kafka 3篇
设计模式 9篇
微服务 7篇
知识扩展 14篇
docker 4篇
网络协议 4篇
phoenix 3篇
开发工具 9篇

最新评论

dbeaver 连接hbase 数据库
dogplays: 如果是ambari安装的话，最开始安装时会让让你设置一个名为hbase用户的密码，这个就是用户密码。如果是手动安装的话可以尝试用户名输入hbase，密码不输入，或者在hbase-site.xml文件中设置用户密码后再输入
dbeaver 连接hbase 数据库
橘颂526: 请问用户名和密码是在哪里得知的？
CentOS 7.2.1511 x64下载地址
浅听微雨: 为什么关闭了
java后端分享整理
F91 F91: 看了两个设计模式，感觉非常绕，维护起来非常麻烦
数据仓设计
CSDN-Ada助手: 大数据包含结构化数据，非结构化数据，半结构化数据，怎么理解结构化？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。