Hive中获取每组数据中id最大的数据

浩哥码字贼快

已于 2024-05-25 11:20:24 修改

阅读量327

点赞数 11

分类专栏： Hive 文章标签： hive hadoop 数据仓库

于 2024-05-25 11:09:26 首次发布

本文链接：https://blog.csdn.net/limenghao2002/article/details/139194295

版权

Hive 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

题目：重复数据只保留一条id最大的

数据准备：

CREATE TABLE t19 (
    id    int,
    name string
) ;
INSERT INTO t19 VALUES ('1', 'A')
,('2', 'A')
,('3', 'A')
,('4', 'B')
,('5', 'B')
,('6', 'C')
,('7', 'B')
,('8', 'B')
,('9', 'B')
,('10', 'E')
,('11', 'E')
,('12', 'E');

1.使用窗口函数

窗口函数可以用来在同一组中为每行分配一个行号，然后对筛选出行号为 1 的行（即 id 最大的行）。

假设你的表名为 t19，并且你要按 name 分组，那么你可以这样写查询：

使用row_number()开窗函数为同一name组的每行分配行号，按照id降序排列，得到的排序顺序是从1开始递增的，这是‘row_number()’自带的固有属性。

此时因为id是降序排列，id大的name排在前列，则r1=1对应的name就是我们所需要的id最大的name，通过子查询嵌套，按照where条件查询r1=1就可以查询出最大的id。

select id,name
from (select *,row_number() over (partition by name order by id desc ) r1
from t19) t1 where r1=1;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浩哥码字贼快

关注关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive中获取每组数据中id最大的数据

题目：重复数据只保留一条id最大的。
复制链接

扫一扫

专栏目录

Python语言学习之pandas：DataFrame二维表的简介、常用函数、常用案例(增删改查排序之选择指定列、根据条件选择特定数据、赋值、列名重命名、修改列数据、处理缺失值、列合并、分组之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

07-23

7363

Python语言学习之pandas：DataFrame二维表的简介、常用函数、常用案例(增删改查排序之选择指定列、根据条件选择特定数据、赋值、列名重命名、修改列数据、处理缺失值、列合并、分组之详细攻略目录 DataFrame的简介 DataFrame的常用案例推荐文章 Py之Pandas：Python的pandas库简介、安装、使用方法详细攻略 Python之pandas：DataFrame二维表的简介、常用函数、常用案例之详细攻略 Python：Python实现读入、

Hive数据加密：增强数据安全性

热门推荐

Java修炼记

11-22

15万+

用途： GROUP BY 语句用于根据一个或多个列对结果集进行分组。例子：原表：现在，我们希望根据USER_ID 字段进行分组，那么，可使用 GROUP BY 语句。我们使用下列 SQL 语句： SELECT ID,USER_ID,problems,last_updated_date from t_iov_help_feed

SQLServer ntile获取每组前10%的数据

12-15

在给定的标题和描述中，我们关注的是如何利用`NTILE`来获取每组数据的前10%。下面将详细解释`NTILE`函数的工作原理以及如何运用它来实现这个目标。 **NTILE函数详解** `NTILE(n)`函数将结果集分成n个组，每个组尽...

hive按照某个字段分组，然后获取每个分组中最新的n条数据

qq_44884269的博客

04-19

1845

hive按照某个字段分组，然后获取每个分组中最新的n条数据

python导入数据到hive_python调用接口数据写入hive

weixin_39654067的博客

12-03

1900

该方法使用场景为：在hadoop集群进行接口调用，并且获取接口返回值进行解析，解析完成数据写入hive表其中存在的问题：测试环境和线上环境的一致性，还有接口调用不能一次性并发太高，自己把握这个量分模块说一下每个模块需要做的：1、调用get接口：请求本地接口进行测试，参数需要encode# -*- coding: utf-8 -*-import urllibimport urllib2# get接口...

【大数据入门核心技术-Hive】（十一）HiveSQL数据分区

12-18

353

分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。您可能确实定义了列。--指定动态分区模式，默认为strict，即必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。我需要做一个快照表，每天凌晨把所有订单的状态做一个快照，但是数据量比较大，除了按天分区外，我还想根据状态进行分区，此时我们可以将两种分区混合使用。多分区虽然会产生比较多的文件，如果数据量不大的情况下，谨慎使用。

Hive实现分组排序、分组求取topN或者分页的实现方法

helloxiaozhe的博客

02-28

1万+

使用到的语法：ROW_NUMBER() OVER(PARTITION BY COL1 ORDER BY COL2) 简单的说row_number()从1开始，为每一条分组记录返回一个数字，这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序，再为降序以后的每条xlh记录返回一个序号。表示根据COL1分组，在分组内部根据 COL2排序，而此函数计算的...

Hive获取最大分区

欲望以提升热忱毅力以磨平高山

08-13

9748

需求：需要在hive的SQL语句中使用函数来解析指定表的最大分区倘若我们使用 select max(pt) from ods. ods_tb_customer_df 的方式去获取最大分区还需启动一个map任务进行计算，我本地测试的结果，一次这样的计算需要Time taken: 73.849 seconds ，简直不能忍，所以需要寻求更好的方式。我们知道hive中有HiveMetaStoreClient api 可以直接获取分区数据，省去了中间环节，效率大增，具体可以参考 http://hive..

Hive如何取最大分区

别人笑我太疯癫，我笑他人看不穿。

05-06

8439

在我们数据处理的时候取最大分区是一个常有的事，可以说在原始层流出的数据百分之九十九的表都要涉及到最大分区，因为不是增量表就是全量表，所以最大分区怎么取也是一个众说风云的事情，接下来我给大家说说我的经验，供大家参考一下首先我们不能直接max(time)，不然效率上就不能说拖整个数据流的后退了，那简直是裤子都拉没了也不要有使用hive的show partitions tablename，然后排序取第一个或最大值这样的想法，因为show语句的结果不能做为一个结果集用，会报错的第一种方式我们可以考虑使用如下的

hive窗口函数实战(2)

bitcarmanlee的博客

04-08

1038

1.什么是窗口函数在明白窗口函数的用途之前，我们先稍微提一下聚合函数，比如sum, count等常用的聚合函数，作用是将一列中多行的值合并为一行。与之对应的是，窗口函数完成的功能是本行内运算，从而多行的运算结果，即每一行的结果对应的多行的结果。一般窗口函数的语法为 function() over (partition by column1, column2 order by column3) ...

hive获取每组数据最大值

风逍遥-ygq

03-18

8361

hive 分组top N 案例01 获取历史数据中每个用户最近时间的一条数据 select itcode, time from (select itoode, time, row_number() over(partion by itcode order by time desc) rn from tb_his ) where ...

hive 查询一个字段最大值的所在记录

我的的博客

03-24

7473

hive 查询一个字段最大值的所在记录思路是： - 先查询出最大值 - 将这个最大值当做一张表然后去关联原有表 - 让这个原有表的字段和最大值这个字段去关联相等，则能找出最大值记录 select * from antenna a cross join (select max(VERTICAL) maxv from antenna ) as b where a.vertical=b.m...

hive 分组+组内排序 , 求topN

大数据训练营

10-22

3万+

================================新的实例更好理解数据: 四列的表,第一列id,第二列渠道,第三列系统,第四类访问日期 0: jdbc:hive2://hadoop009.dx.momo.com:2181,ha> select * from dc_dev.tmp_row_num; tmp_row_num.muid tmp_row_num.channeltm...

mysql分组排序取最大值所在行，类似hive中row_number() over partition by

weixin_33805557的博客

01-03

534

如下图，计划实现：按照 parent_code 分组，取组中code最大值所在的整条记录，如红色部分。（类似hive中：row_number() over(partition by)） select c.* from ( select a.*, (@i := case when @key_i=parent_code then @i+1 else 1 end) as sor...

hive中那个阶段获取元数据

07-28

在Hive中，获取元数据的阶段是在编译器的语义分析阶段。语义分析是编译器对查询语句进行解析和验证的过程，并且在此过程中需要获取表和列的元数据信息。在语义分析阶段，Hive编译器通过使用Hive元数据存储（如Hive的内置数据库derby或外部数据库如MySQL）来获取表和列的元数据信息。元数据包括表名、列名、数据类型、表结构等信息，这些信息对于查询的语义分析和优化非常重要。 Hive使用元数据存储来记录数据库、表和列的信息，以便在查询执行期间进行参考。当编译器在语义分析阶段遇到表或列时，它会从元数据存储中获取相应的信息，以验证查询的语法和语义正确性。总之，在Hive中，获取元数据是在编译器的语义分析阶段进行的，通过访问元数据存储来获取表和列的信息，以支持查询的解析和验证。