hive中三种去重的方法

最新推荐文章于 2024-01-04 15:37:16 发布

yagch

最新推荐文章于 2024-01-04 15:37:16 发布

阅读量2.8w

点赞数 6

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34897849/article/details/102691128

版权

hive 专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨SQL中distinct、group by及ROW_Number()函数的使用方法，通过具体案例讲解如何对数据进行有效去重与排序，特别是针对复杂场景下ID与superID的处理策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、distinct,group by与ROW_Number()窗口函数使用方法

1. Distinct用法：对select 后面所有字段去重，并不能只对一列去重。

（1）当distinct应用到多个字段的时候，distinct必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且distinct只能放到所有字段的前面

（2）distinct对NULL是不进行过滤的，即返回的结果中是包含NULL值的

（3）聚合函数中的DISTINCT,如 COUNT( ) 会过滤掉为NULL 的项

2.group by用法：对group by 后面所有字段去重，并不能只对一列去重。

3. ROW_Number() over()窗口函数

注意：ROW_Number() over (partition by id order by time DESC) 给每个id加一列按时间倒叙的rank值，取rank=1

select m.id,m.gender,m.age,m.rank

from (select id,gender,age,ROW_Number() over(partition by id order by id) rank

from temp.control_201804to201806

where id!='NA' and gender!='' or age!=''

) m

where m.rank=1

二、案例：

1.表中有两列：id ，superid，按照superid倒序排序选出前100条不同的id，如下：

1.方案一：

子查询中对id,superid同时去重，可能存在一个id对应的superid不同，id这一列有重复的id，但是结果只需要一列不同的id，如果时不限制数量，则可以选择这种方法

%jdbc(hive)

create table temp.match_relation_3M_active_v5 as

select a.id

from (select distinct id,superid

from temp.match_relation_3M_activ

order by superid desc

limit 100

) a

group by a.id

注意，对id去重时可以用gruop by 或者distinct id，两者去重后的id排序时一致的，但是加了distinct(group by)后，distinct字段自带排序功能，会先按照distinct后面的字段进行排序,即已经改变了子查询的中order by的排序，但是结果与正确结果中的id是一样的，只是排序不同罢了。

方案二：

因为要求按照superid倒序排序选出，而一个id对应的superid不同，必有大有小，选出最大的那一个，即可。同理若是按照superid正序排列，可以选出最小的一列

%jdbc(hive)

create table temp.match_relation_3M_active_v7 as

select a.id

from (select id,max(superid) as superid

from temp.match_relation_3M_active

group by id

order by superid desc

limit 100

) a

方案三：

首先利用窗口函数ROW_Number() over()窗口函数对id这一列去重，不能用distinct或者group by对id,superid同时去重

%jdbc(hive)

create table temp.match_relation_3M_active_v11 as

select n.id

from (select m.id,superid

from (select id,superid,ROW_Number() over(partition by id order by id) rank

from temp.match_relation_3M_active

) m

where m.rank=1

order by superid desc

limit 100

)n

注意，以下代码中，窗口函数ROW_Number() over（）的执行顺序晚于 order by superid desc，最终的结果并非 superid的倒叙排列的结果

%jdbc(hive)

create table temp.match_relation_3M_active_v9 as

select m.id

from (select id, superid,ROW_Number() over(partition by id order by id) rank

from temp.match_relation_3M

order by superid desc

) m

where m.rank=1

group by m.id

limit 100

博客等级

码龄9年

52
原创

35
点赞

183
收藏

123
粉丝

关注

私信

热门文章

分类专栏

hive 15篇
maxwell 2篇
mac 2篇
flink 4篇
datax 2篇
redis 1篇
docker 2篇
股 1篇
sublime 1篇
canal 1篇
linux 3篇
cdh 2篇
sentry 1篇
phoenix 1篇
spark streaming 1篇
kafka 3篇
hbase 2篇
sqoop 17篇
nifi 1篇
flume 1篇
mysql 4篇

最新评论

hive 存储元数据信息支持中文
陈淀薄发: 如果表之前的characterset 是latin，现在即使表的characterset改成了utf8，字段的编码依然没有改，字段的编码也需要手动改。
Maxwell读取MySQL binlog日志到Kafka
CSDN-Ada助手: 非常感谢CSDN博主分享的“Maxwell读取MySQL binlog日志到Kafka”的技术文章。我觉得这篇博客对于想要了解如何实现MySQL binlog日志到Kafka的读取操作的读者非常有帮助。下一篇博客可以继续深入探讨Kafka的应用，比如可以写一篇“使用Kafka实现分布式日志收集”的技术文章，相信会有更多读者受益。期待你的下一篇精彩分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
docker 安装mysql 开启binlog 每天备份数据
qq_张先生: 你这是全量备份啊
sqoop 4种密码使用模式
帅气可爱又任性的凯哥: 你好，请问，sqoop1.4.5支持别名模式吗？
hbase 2.1.0 编译phoenix5.0.0
benpaodexiaowoniu: 楼主，你的二级索引是如何避免建立后插删数据均不报错如下的：https://ask.csdn.net/questions/710412

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。