Hive中常用SQL梳理

最新推荐文章于 2024-01-14 08:00:00 发布

mbshqqb

最新推荐文章于 2024-01-14 08:00:00 发布

阅读量588

点赞数 1

分类专栏： SQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mbshqqb/article/details/87066620

版权

SQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

注意：hive子查询需要起别名！！！

先groupby后取第一条：

方法1：

使用row_number()和over()函数：

遇到这么一个需求，输入数据为一个ID对应多个name，要求输出数据为ID是唯一的，name随便取一个就可以。

select A.* from (select row_number() over (partition by id order by name desc) row_num from table_name) A where A.row_num=1;

方法二：

Hive不允许直接访问非group by字段；
对于非group by字段，可以用Hive的collect_set函数收集这些字段，返回一个数组；
使用数字下标，可以直接访问数组中的元素；

select id,collect_set(name)[0] from table_name group by id;

先groupby后取top K：

select A.* from (select row_number() over (partition by id order by name desc) row_num from table_name) A where A.row_num<k;

取非groupby的字段：

Hive不允许直接访问非group by字段；
对于非group by字段，可以用Hive的collect_set函数收集这些字段，返回一个数组；
使用数字下标，可以直接访问数组中的元素；

select id,collect_set(name)[0] from table_name group by id;

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive中常用SQL梳理

注意：hive子查询需要起别名！！！先groupby后取第一条：方法1：使用row_number()和over()函数：遇到这么一个需求，输入数据为一个ID对应多个name，要求输出数据为ID是唯一的，name随便取一个就可以。select A.* from (select row_number() over (partition by id order by name de...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。