hive中distinct和group by 去重运行效率对比

最新推荐文章于 2023-07-02 11:24:33 发布

¤睿

最新推荐文章于 2023-07-02 11:24:33 发布

阅读量1.9k

点赞数 2

分类专栏： hive 文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/weixin_42856363/article/details/127121474

版权

hive 专栏收录该内容

15 篇文章 4 订阅

订阅专栏

在这里插入图片描述

先来看hive的运行机制：
	Hive 通过用户提供的一系列交互接口，接收到用户的指令（SQL），使用自己的Driver，结合元数据（MetaStore），将这些指令翻译成MapReduce，提交到hadoop中执行，最后，将执行返回的结果输出到用户交互接口。
	由此得出，对于hive来说，查看某个语句的执行效率还是需要查看底层设计的。
	hive的跑数一般是MapReduce和Spark，以MapReduce为例来讲的话：
		以下表为例

在这里插入图片描述

select distinct
id,name
from tmp;

select
id,name
from tmp;

相比而言，group by的速率会更快，因为group by 在MapReduce中会先分组，而distinct会对整张表进行计算。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

¤睿

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
hive中distinct和group by 去重运行效率对比

hive中distinct和group by 去重运行效率对比。
复制链接

扫一扫

专栏目录

hive之group by详解

我的博客

05-10

5万+

有部分是转自:https://blog.csdn.net/lzm1340458776/article/details/43230517hive distribute by 和group by 的区别：group by是对检索结果的保留行进行单纯分组，一般总爱和聚合函数一块用例如AVG（），COUNT（），max（），main（）等一块用。 group by操作表示按照某些字段的值进行分组，有相同的...

hive 中join和Group的优化

01-07

set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙当map阶段运行不了的时候，可以设置 set hive.map.aggr ...

1 条评论您还未登录，请先登录后发表或查看评论

hive与mysql对比之max、group by、日志分析

luo981695830的博客

02-04

2328

前期准备 mysql模型:test_max_date(id int,name varchar(255)，num int,date date) hive模型：create table test_date_max(id int,name string,rq Date); insert into table test_date_max values (1,"1","2020-12-25"), (2,"1","2020-12-28"), (3,"2","2020-12-25"), (4,"2","2.

Hive中distinct和Group by效率对比及处理方式

Liu_Arvin的芝士小栈

08-01

1万+

Hive中distinct和group by效率对比，及处理方式

hive中Distinct和group by去重的对比

XMZHSY的博客

06-09

1717

在Hive中， DISTINCT和GROUP BY都可以用于去重，但是它们背后的实现方式是不同的，因此它们的效率也是不同的。GROUP BY会按照指定的逻辑条件将数据分组，并对每个分组进行统计，最后将分组的结果集合并在一起。DISTINCT是一种去重方法，它会扫描整个数据集，然后将重复的记录删除，只留下唯一的记录。GROUP BY也可以用于去重，但与DISTINCT不同，它可以在数据流中即时地进行去重处理，因此它的。GROUP BY 查询对空间的需求较小，因为其底层数据结构已经是去重的，因此可以。

distinct效率更高还是group by效率更高？

猾枭的博客

06-29

1万+

原创文章，希望多多关注支持，感谢。目录 00 结论 01 distinct的使用 02 group by的使用 03 distinct和group by原理 * 04 推荐group by的原因 00结论先说大致的结论（完整结论在文末）：在语义相同，有索引的情况下 group by和distinct都能使用索引，效率相同。在语义相同，无索引的情况下： distinct效率高于group by。原因是distinct 和 group by都会进行分组操作，但group by可能会进行排序，触发fil

Hive查询中的优化

November、Chopin

02-26

474

hive使用group by代替distinct去重

distinct和group by的效率比较

奋斗的阿杰的博客

07-25

3366

distinct和group by的性能比较

HBase与hive整合和 hive与hdfs结合的效率对比1

08-08

《HBase与Hive整合及效率对比分析》在大数据处理领域，HBase和Hive分别扮演着不同的角色。HBase是一款基于Hadoop的分布式数据库，适用于实时查询和大规模数据存储，而Hive则是一个数据仓库工具，侧重于离线批处理...

Hive优化（提高hive运行速度）

01-20

总结来说，Hive 的本地模式优化是一种提高小规模任务运行效率的有效策略。然而，针对不同场景，需要权衡资源利用和执行速度，合理选择合适的执行模式。同时，Hive 优化还包括其他方面，如分区、桶表、元数据优化、...

MySQL中distinct与group by之间的性能进行比较

09-10

主要针对MySQL中distinct与group by之间的性能进行比较，内容比较详细，很直观的能看出比较结果，感兴趣的小伙伴们可以参考一下

hive 和 presto sql的对比

04-21

Hive和Presto SQL是两种广泛用于大数据处理的查询语言，它们在SQL语法和功能上有一定的相似性，但也存在明显的差异。以下是对这两者在常见函数使用、陷阱和特定功能上的对比： 1. **NOT IN**： Hive允许在`NOT IN`...

Hive Sql – Multi Distinct（多个distinct在同一个query中）优化

01-07

当多个 distinct 操作同时出现在 select 中，数据会分发多次。容易造成Reduce数据倾斜优化点 1、如果不要求精确值，可以使用 spark-sql approx_count_distinct函数（基数计数 hyperloglog） 2、修改SQL 基础数据...

浅析Hive的group by和count（distinct）

DM_Source的博客

05-08

1万+

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。实例代码：select a,count(distinct b) from t group by aselect tt.a,count(b) from (select a,b from t group by a,b)tt group by tt.a 上面两...

MySQL中distinct和group by性能比较

道阻且长,行则将至

02-05

444

一、不加索引 select distinct num from test_test; 时间: 0.078ms select num from test_test group by num; 时间: 0.031ms 二、加上索引 1 ALTER TABLE `test_test` ADD INDEX `num_index` (`num`) ; 再次查询

面试官：MySQL 中的 distinct 和 group by 哪个效率更高？

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交