Hive去重复数据

最新推荐文章于 2024-08-04 00:55:56 发布

jack_boy

最新推荐文章于 2024-08-04 00:55:56 发布

阅读量1k

点赞数

分类专栏：记录点滴文章标签： Hive

本文链接：https://blog.csdn.net/jack_boy/article/details/84707887

版权

记录点滴专栏收录该内容

26 篇文章 0 订阅

订阅专栏

Hive数据去重

insert overwrite table store  
  select t.p_key,t.sort_word from   
    ( select p_key,  
           sort_word ,  
           row_number() over(distribute by p_key sort by sort_word) as rn 
     from store) t  
     where t.rn=1;

说明：
[list]
[*]p_key为去重所依据的key，sort_word表示多个p_key的排列顺序，这个关键字将决定哪个p_key将留下。
[*]t 为子查询的别名，Hive需要在每个子查询后面加别名
[*]t.rn=1表示重复的数据只保留第一个。
[*]distribute by 关键字指定分发的key，同一个key将分发到同一个reducer
[*]sort by 是单机范围内排序，因此配合distribute by 就可以对某一个关键字排序
[/list]
参考：
[url="http://www.alidata.org/archives/622"]写好Hive 程序的五个提示[/url]
[url="http://blog.csdn.net/limao314/article/details/14126391"]Hive 典型的中表内数据除重写法[/url]

jack_boy

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive去重复数据

Hive数据去重[code="SQL"]insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by so...
复制链接

扫一扫

专栏目录