Hive去重复数据

转载 2015年07月10日 15:10:24

这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据

Hive数据去重

Sql代码  

  1. insert overwrite table store    
  2.   select t.p_key,t.sort_word from     
  3.     ( select p_key,    
  4.            sort_word ,    
  5.            row_number() over(distribute by p_key sort by sort_word) as rn   
  6.      from store) t    
  7.      where t.rn=1;    


说明:

  • p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
  • t 为子查询的别名,Hive需要在每个子查询后面加别名
  • t.rn=1表示重复的数据只保留第一个。
  • distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
  • sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序

相关文章推荐

Hive RCFile合并作业产生重复数据问题

前几天有DW用户反馈,在往一张表(RCFile表)中用“insert overwrite table partition(xx) select ...” 插入数据的时候,会产生重复文件。看了下这个作业...

分布式数据仓库Hive大全

  • 2017年11月08日 18:56
  • 2.74MB
  • 下载

Hive的数据存储模式

  • 2017年10月08日 17:44
  • 639KB
  • 下载

hadoop-hive查询ncdc天气数据实例

使用hive查询ncdc天气数据 在hive中将ncdc天气数据导入,然后执行查询shell,可以让hive自动生成mapredjob,快速去的想要的数据结果。 1. 在hive中创建ncd...

hive造数据

  • 2017年08月07日 19:03
  • 146KB
  • 下载

hive数据加载导出查询

  • 2016年04月12日 12:22
  • 9KB
  • 下载

hive的数据查询的相关语法知识

select … from clause: 1.1array类型:  hive> SELECT name, subordinates FROM employees; John Doe  ["Ma...

Hive几种数据导入方式

  • 2016年02月26日 14:36
  • 637KB
  • 下载

Hive数据仓库(一)

  • 2016年09月25日 21:59
  • 1.63MB
  • 下载

hive编译安装与元数据更改

一、前言 在装好
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hive去重复数据
举报原因:
原因补充:

(最多只允许输入30个字)