Hive中，row_number() over(partition by) 和group by的区别

最新推荐文章于 2024-09-24 14:32:00 发布

拉克因

最新推荐文章于 2024-09-24 14:32:00 发布

阅读量1.1w

点赞数 6

分类专栏： Hadoop学习笔记文章标签： Hive Sql

本文链接：https://blog.csdn.net/dapanbest/article/details/87800141

版权

Hadoop学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

row_number() over (partition by) 和 group by 的区别

现在假设Score表中有如下数据：

Name	Class	Grade
Zhang San	A	80
Li Si	B	83
Wang Wu	A	88
Zhao Liu	C	92
Chen Qi	B	79
Wu Ba	C	85

现在需要求得各个班级最高分，那么我们可以这样写：

select class, max(grade) from score group by class;

当然也可以这样写：

select class, grade from 
	(select *, row_number() over 
		(partition by class order by grade desc) grade_desc
	) from score score_sorted)
where grade_desc=1;

看起来后面这种写法要复杂很多，的确，如果只需要不太多的信息，第一种方法是最佳的。

但是，如果需要更多信息，比如每个班第一名的名字，那么第二种方法就很有效了。

select name, class, grade from 
	(select *, row_number() over 
		(partition by class order by grade desc) grade_desc
	) from score score_sorted)
where grade_desc=1;