[Hive基础]-- 去除指定重复的数据举例

最新推荐文章于 2024-08-05 11:52:11 发布

往事随风ing

最新推荐文章于 2024-08-05 11:52:11 发布

阅读量1.5w

点赞数 2

分类专栏： Hive（理论+实战）文章标签： hive hql

本文链接：https://blog.csdn.net/high2011/article/details/52142697

版权

Hive（理论+实战）专栏收录该内容

37 篇文章 12 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Hive的HQL语句去除数据表中指定字段的重复数据。通过示例代码展示了利用row_number()窗口函数结合distribute by和sort by关键字进行数据去重的方法，并提供了针对所有字段去重的处理方式。

摘要由CSDN通过智能技术生成

Hive数据去重举例：

Hql代码

INSERT overwrite TABLE store SELECT
	t.p_key,
	t.sort_word
FROM
	(
		SELECT
			p_key,
			sort_word,
			row_number () over (
				distribute BY p_key sort BY sort_word
			) AS rn
		FROM
			store
	) t
WHERE
	t.rn = 1;

说明：

p_key为去重所依据的key，sort_word表示多个p_key的排列顺序，这个关键字将决定哪个p_key将留下。
t 为子查询的别名，Hive需要在每个子查询后面加别名
t.rn=1表示重复的数据只保留第一个。
distribute by 关键字指定分发的key，同一个key将分发到同一个reducer
sort by 是单机范围内排序，因此配合distribute by 就可以对某一个关键字排序

应用举例：

表一数据：

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

往事随风ing

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

hive-04-Hive函数大全

九师兄

11-17

667

一、关系运算： 1. 等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： hive>select 1 from lxw_dual where 1=1; 1 2. 不等值比较: <> 语法: A <>

hive数据去重，并取指定的一条数据

最新发布

坚持自己的梦想

08-05

558

在Hive中，处理时间数据的函数非常有用，尤其是在处理包含时间戳或日期字段的大数据时。以下是一些Hive中相对频繁使用的时间处理函数，包括它们的名称、参数、功能以及SQL示例。

hive 列表去重_【Hive】数据去重

weixin_39623050的博客

12-22

1772

实现数据去重有两种方式：distinct 和 group by1.distinct消除重复行distinct支持单列、多列的去重方式。单列去重的方式简明易懂，即相同值只保留1个。多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才会被认为是重复的信息。(1)作用于单列select distinct name from A //对A表的name去重然后显示(2)作用于...

hive row_number 去重取第一条

iKuboo

12-23

1989

假如根据id去重，取第一条数据，对应当前hive 语句为： select t.id, t.name, t.time_c from ( select id, name, time_c, row_number() over(partition by id order by time_c d...

hive sql去重--sql取最近一条记录

zx8167107的博客

03-08

1万+

hivesql在使用中会经常碰到去除重复数据的操作，一般来说一个关键字distinct就可以解决，但是distinct的使用场景限制比较多，它是对所选取的所有字段进行比对，只要有一个字段的值不相同就为非重复记录，例如 select distinct id, name from table 字段较少的情况下就没问题，能够找出id、name都不同的所有记录...

【Hive-Hive函数大全】Hive函数的语法使用和举例描述

weixin_53543905的博客

03-03

1066

比如，M 是值为{‘f’ -> ‘foo’, ‘b’ -> ‘bar’, ‘all’ -> ‘foobar’}的 map 类型，那么 M[‘all’]将会返回’foobar’说明：count(*)统计检索出的行的个数，包括 NULL 值的行；比如，A 是个值为[‘foo’, ‘bar’]的数组类型，那么 A[0]将返回’foo’,而 A[1]将返回’bar’partToExtract 的有效值为：HOST， PATH，QUERY，REF，PROTOCOL，AUTHORITY，FILE，USERINFO。

hive-3

leezsj的博客

07-13

578

⼆级分区⼆级分区指的是在⼀张表中有两个分区,创建和插⼊时都要指定两个分区名,最常⻅的就是下⾯案例的年和⽉,创建的语法和流程都是和⼀级分区⼀样,只是多⼀个分区⽽已. create table if not exists part2( id int, name string ) partitioned by (year string,month string) row format delimited fields terminated by ','; load data local inpath

大数据-案例-离线数仓-在线教育：MySQL(业务数据)-ETL(Sqoop)-＞Hive数仓【ODS层-数据清洗-＞DW层(DWD-统计分析-＞DWS)】-导出(Sqoop)-＞MySQL-＞可视化

u013250861的博客

07-13

1998

一、访问咨询主题看板 1. 需求分析目的: 分析每一个调研需求需要计算什么指标, 以及计算这个指标需要通过那些维度,而且还包括计算这个需求涉及到那些表和那些字段需求1: 统计指定时间段内，访问客户的总数量。能够下钻到小时数据指标: 访问量维度: 时间维度: 年季度月天小时涉及到哪些表: web_chat_ems_2019_12 涉及到哪些字段: 时间维度: create_time 说明: 发现create_time字段中包含有年月天小时

hive表数据按照手机号去除重复，每个手机号只保留一条记录

xiaoleilei666的博客

03-14

1638

一、简要介绍样例数据： mdn imei imsi vprovId 1064948930129 8670120344055714 460111128580323 123 1064948930129 8670120344055714 460111128580323 123 1064948605404 8666660207679900 460110662972417 234 需求：表数据按照手机号去除重复，每个手机号只保留一条记录二、HSQL编写思路使用ROW_NUM

hive中三种去重的方法

qq_34897849的博客

10-22

2万+

一、distinct,group by与ROW_Number()窗口函数使用方法 1. Distinct用法：对select 后面所有字段去重，并不能只对一列去重。（1）当distinct应用到多个字段的时候，distinct必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且distinct只能放到所有字段的前面（2）distinct对NULL是不进行过滤的，...

hive中去重的操作

Matthew93的博客

10-22

1169

hive去重

Hive去重最佳方法

SunnyRivers

05-13

9298

需求将下表中id去重，并把去重后所有字段输出说道去重相信大部分人脑海中第一反应是： distinct 的确如此，distinct非常适合对于单个字段进行去重的操作，但是对于上面的需求貌似不好处理第二反应是： group by 如果是Mysql操作当然没问题： SELECT id,month,label FROM t4 GROUP BY id; 结果：但是Hive做同样的操作就会报...

Hive数据去重、多变一与一变多等实现

谦蓦的博客

09-29

3204

Hive数据去重、多变一与一变多等实现 0. 数据准备 0.1 数据文件本机的/usr/local/share/applications/hive/data/目录下创建 employees.txt 数据文件： John Doe^A100000.0^AMary Smith^BTodd Jones^AFederal Taxes^C.2^BState Taxes^C.05^BInsur

使用 hibernate 时,如何去除重复项查询出的数据

逸轩

12-03

7552

"from Message as m where m.messageId in (select max(n.messageId) from Message as n group by n.messageTitle)" 先是以重復項分組，分組后用max()函數取出每组的最大的id，这样就得到了每种唯一的一条记录。

hibernate根据字段去除重复记录

luo_yurong的博客

10-18

787

public List<Employee> getUniqueNameByHqlCorrect(){ List<Object[]> list=employeeDao.createQuery("from Employee e inner join (select max(b.id) as id from Employee b group by b.name) c on ...

Hql语句中使用distinct关键字查询多个字段后以对象形式返回的方法

q1144658074的专栏

02-14

4154

HQL1 ：select distinct rs.country,rs.language from ResourceBundle rs @Query("select distinct rs.country,rs.language from ResourceBundle rs" ) List getLanguageAndCountry(); 我们这样写的话返回的是Object[]

Hive基础操作与-e参数使用详解

在这个文档中，我们主要关注Hive的基础DML（Data Manipulation Language）操作，这是进行数据查询和管理的核心部分。 1. Hive的-e选项：`-e` 是Hive命令行接口的一个选项，用于执行一个简单的HQL命令，然后不进入...