Hive去重复数据

转载 2015年07月10日 15:10:24

这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据

Hive数据去重

Sql代码  

  1. insert overwrite table store    
  2.   select t.p_key,t.sort_word from     
  3.     ( select p_key,    
  4.            sort_word ,    
  5.            row_number() over(distribute by p_key sort by sort_word) as rn   
  6.      from store) t    
  7.      where t.rn=1;    


说明:

  • p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
  • t 为子查询的别名,Hive需要在每个子查询后面加别名
  • t.rn=1表示重复的数据只保留第一个。
  • distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
  • sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序

hive 如何去掉重复数据,显示第一条

name  adx        tran_id                  cost        ts ck        5         125.168.10.0          ...
  • kl28978113
  • kl28978113
  • 2017年05月08日 17:33
  • 746

hive数据表去重方法

1、hive 0.8.0数据表去重方法 问题描述:hive的外部表test中,在若干字段上存在重复现象,现在需要将若干字段上值相同的多条记录,只保其中留一条,           舍弃其余的。   ...
  • zcc_0015
  • zcc_0015
  • 2015年12月02日 19:08
  • 7403

hive使用技巧(三)——巧用group by实现去重统计

网站统计中常用的指标,pv ,uv , 独立IP,登录用户等,都涉及去重操作。全年的统计,PV超过100亿以上。即使是简单的去重统计也非常困...
  • kwu_ganymede
  • kwu_ganymede
  • 2015年12月22日 16:53
  • 8642

Hive(十一)--数据去重及row_number()

distinct会整条数据去重,有一项是不同的整条数据就算不同的,不会去掉,按照某一个字段去重需要如下方法 hive数据去重,并根据需求取其中一条 数据案例: name  adx   ...
  • yimingsilence
  • yimingsilence
  • 2017年04月12日 11:18
  • 1919

Hive和MySQL数据互相导入

在实际场景中,举例子说明: 1· 数据从Hive导入MySQL: 先在MySQL中建表: CREATE TABLE `dg_user_visited` ( `id` int(11) unsigne...
  • qq_31573519
  • qq_31573519
  • 2017年02月13日 20:09
  • 2030

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小...
  • achuo
  • achuo
  • 2016年05月06日 10:40
  • 973

Hive总结(七)Hive四种数据导入方式

Hive的几种常见的数据导入方式 这里介绍四种: (1)、从本地文件系统中导入数据到Hive表; (2)、从HDFS上导入数据到Hive表; (3)、从别的表中查询出相应的数据并导入到Hive表中; ...
  • lifuxiangcaohui
  • lifuxiangcaohui
  • 2014年10月29日 17:05
  • 160886

利用Hive进行数据分析

近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Ha...
  • wh_springer
  • wh_springer
  • 2016年07月06日 21:30
  • 7346

HIVE中数据更新(update)操作的实现

数据更新是一种常见的操作,然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一种分布式环境下以HDFS为支撑的数据仓库,它同样更多的要求数据是不可变的。 然而现实很多任务中,往往需要...
  • sparkexpert
  • sparkexpert
  • 2015年12月30日 09:19
  • 10609

hive数据加载

hive数据导入的几种格式。包括load data、查询语句导入、动态语句导入、CTAS格式数据导入。...
  • u014432433
  • u014432433
  • 2016年05月09日 14:07
  • 1130
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hive去重复数据
举报原因:
原因补充:

(最多只允许输入30个字)