SQL/HQL中数据去重的3种方式

最新推荐文章于 2024-07-12 15:06:15 发布

Thomson617

最新推荐文章于 2024-07-12 15:06:15 发布

阅读量6.1k

点赞数 4

分类专栏： Hive 文章标签： Hive 数据去重 SQL HQL

本文链接：https://blog.csdn.net/Thomson617/article/details/89145724

版权

Hive 专栏收录该内容

9 篇文章 8 订阅

订阅专栏

30万条数据的去重比较

1.distinct

select distinct * from tableName

hive用时: 40.47秒
impala用时: 11.98秒

2.group by

select c1,c2,c3,c4,c5,max(c6) c6
from tableName
group by c1,c2,c3,c4,c5

hive用时: 22.8秒
impala用时: 2.4秒

3.窗口函数( 这里选用:row_number()over() )

select * from 
	(select c1,c2,c3,c4,c5,c6,
		row_number()over(partition by c1,c2 order by c6 desc) ranking
	from tableName) tmp
where ranking = 1

hive用时: 21.41秒
impala用时: 2.5秒

总结:

distinct 效率最低,不建议使用;
group by 和窗口函数的去重效率高,用时差不多,根据实际情况使用.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Thomson617

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

[Hive基础]-- 去除指定重复的数据举例

欢迎来到我的博客，一起探索代码里的世界！

08-07

1万+

Hive数据去重举例： Hql代码 INSERT overwrite TABLE store SELECT t.p_key, t.sort_word FROM ( SELECT p_key, sort_word, row_number () over ( distribute BY p_key sort BY sort_word ) AS ...

大数据开发+hive优化方法大全+hql优化

11-24

在大数据处理领域，Hive 是一个非常重要的工具，它提供了基于 SQL 的查询语言（HQL）来处理大规模数据集。针对Hive的性能优化，可以从多个方面进行，包括SQL语句优化、数据格式优化、小文件过多优化、并行执行优化、...

2 条评论您还未登录，请先登录后发表或查看评论

SQL进阶技巧：Hive中Left Join基于or形式匹配连接的一种优雅实现方式

石榴姐yyds

06-04

4286

Hive中对于模糊匹配关联是不支持的，如or 连接，基于like的模糊匹配连接，对于此类问题往往需要找新的方案，对于or连接网上给出了解决方案如union的实现形式，本文借助于locate()+concat_ws()函数进行优雅的实现。......

SQL去重的四种方法

最新发布

qq_37772593的博客

07-12

1747

原理：先根据要去重的字段姓名，和唯一字段时间，拿到最后一个值，然后根据这个值，作为链接查询的关系，自连，从而完成拿到最后一条数据。作用：只能一列去重，当distinct后跟大于1个参数时，他们之间的关系是&&(逻辑与)关系，只有全部条件相同才会去重。作用：先根据重复列进行分组，分组后再进行排序，不同的组序号为1，相同的组序号为2，排除为2的就达到了去重效果。注意点：这样去除之后的数据是保留的第一条重复的数据，如果想保留最后一条数据，将min()改成max()代码：一张表a，开始时间是b，用户姓名c。

HQL语句的调优

li1579026891的博客

12-12

859

1、去重语句(用group by 来代替distinct) Group by 也有去重的功能，具体内容如下 select distinct customer_id from test_join_order; => select customer_id from test_join_order group by customer_id; 在极大的数据量(且很多重复值)时，可以先group by去重，在count()计数，效率高于count(distinct col) create tabl

HQL03 查询结果去重

m0_47792921的博客

03-29

767

测试用例 create database nk_test; //创建数据库 use nk_test; //进入数据库 -- 创建测试表 CREATE TABLE user_profile( id int, device_id int, gender string, age int, university string, province string); -- 向测试表中插入数据 INSERT INTO user_profile VALUES(1,2138,'male',21,'北京大学','

SQL联表查询LEFT JOIN 数据去重复

培根芝士的专栏

04-07

5740

使用left join联表查询时，如果table1中的一条记录对应了table2的多条记录，则会重复查出id相同的多条记录。

hive表数据按照手机号去除重复，每个手机号只保留一条记录

xiaoleilei666的博客

03-14

1632

一、简要介绍样例数据： mdn imei imsi vprovId 1064948930129 8670120344055714 460111128580323 123 1064948930129 8670120344055714 460111128580323 123 1064948605404 8666660207679900 460110662972417 234 需求：表数据按照手机号去除重复，每个手机号只保留一条记录二、HSQL编写思路使用ROW_NUM

sql 去重关键字 distinct

atu99602的博客

07-06

2734

单列去重： mysql: drop table test;create table test(id int(4));insert into test values(1),(2),(3),(4),(1),(2);select count(distinct id) from test;oracle:drop table test;create table test(id number(4...

hibernate中文帮助文档

06-12

Hibernate是一款开源的对象关系映射（ORM）框架，它允许Java开发者在Java应用程序中使用对象模型，而无需直接操作SQL语句。这篇中文帮助文档将详细解释Hibernate的核心概念、配置、API使用以及最佳实践，旨在帮助...

基于Hadoop的大数据处理关键技术综述22.zip

12-01

Hive提供了一种SQL-like查询语言（HQL），使得非程序员也能方便地操作Hadoop上的数据。Pig则是为大数据分析设计的脚本语言，简化了大型数据集的处理过程。HBase是一个分布式的、面向列的数据库，适合实时查询大数据...

Java开发实战之腾讯大数据批量导入【Aaron】

10-16

通过Java开发，我们可以创建HQL（Hive Query Language）脚本，实现对Hadoop集群中的数据进行SQL-like查询。 3. **Spark**：Spark是另一种快速、通用的大数据处理引擎，支持批处理、交互式查询、流处理和机器学习。...

05-求N日留存率的公式(二) 无答案

10-28

在数据分析和用户行为追踪中，留存率是衡量产品或服务用户粘性的重要指标。N日留存率是指在特定日期活跃的用户群体中，在N天后仍然保持活跃的比例。本问题探讨的是如何计算N日留存率，特别是次日留存率和次7日留存率...

hive(五) -- HQL查询语法

Gefangenes的博客

05-31

369

公用表表达式(CTE ）是一个临时结果集∶该结果集是从WITH子句中指定的简单查询派生而来的，紧接在SELECT或INSERT关键字之前。1.JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。Hive当下版本支持子查询,支持在where后子查询,也可以在from后的子查询.但是不支持在select后的子查询.左半开连接(left semi join) 会返回左表的记录,前提是其记录对于右表满足on语句的判定条件。有序，不保证全局有序。

hibernate之HQL实体更新与删除

么西的IT世界你不懂

10-04

885

Java_Web三大框架之Hibernate+HQL语言基础

weixin_30699955的博客

08-04

317

12.1 HQL语言基础Hibernate查询语言为HQL（Hibernate Query Language），可以直接使用实体类名及属性。HQL语法类似于SQL，有SQL的关键词如select、from、order by、count()、where等等。不同的是HQL是一种完全面向对象的语言，能够直接查询实体类及属性。12.1.1 HQL语法HQL语法类似于SQL，是一种select...fr...

HQL典型题目总结--日期间隔以及去重问题

材料狗转行的博客

05-22

364

HQL典型题目–日期间隔以及去重问题这些问题仅用于记录自己学习情况，如有雷同，纯属巧合数据准备 create table good_promotion( brand string, stt string, edt string ) row format delimited fields terminated

Hibernate第四阶段

john_zc的博客

12-07

819

Hibernate查询，抓取策略

Hibernate Hql 去重查询表中多个重复数据去重