Hive中distinct和Group by效率对比及处理方式

最新推荐文章于 2024-06-21 17:29:18 发布

刘金宝_Arvin

最新推荐文章于 2024-06-21 17:29:18 发布

阅读量1.2w

点赞数

分类专栏： Hive 文章标签： hive 数据库 distinct group-by

本文链接：https://blog.csdn.net/qq_36743482/article/details/76507091

版权

Hive 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

注：该Hive语法仍可以做很多优化：建立临时表一次性从大表中取出数据；把where条件尽量放在一次判断中，这里仅针对distinct和group by讨论。
#结论：
针对大量数据的去重，group by的效率要远高于distinct。
#从distinct转化为group by
简单的转化这里不提，针对：一条语句里求总记录条数以及去重之后的记录条数：
简单示例：
这里写图片描述

SELECT
COUNT(*) AS sum_cnt
,COUNT(DISTINCT age ) AS user_cnt
FROM
liu_t_02 t
GROUP BY 
t.name;

结果
这里写图片描述

转化为group by 只需要在加一个group by，并采用sum和count的组合

SELECT
SUM(age),
COUNT(tt.age)
FROM
(
SELECT t.name0 AS name0,COUNT(age) as age
FROM
liu_t_02 t
GROUP BY 
t.name0,t.age
)tt
GROUP BY tt.name0

#测试时间对比
自己写的用于计算巨量数据的distinct的脚本，在shell中用时13分钟。
修改为group by，运算结果相同，用时9分钟，效率提升30%。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刘金宝_Arvin

关注关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Hive中distinct和Group by效率对比及处理方式

Hive中distinct和group by效率对比，及处理方式
复制链接

扫一扫

专栏目录

Hive去重：distinct与group by

张之海的博客

06-02

2399

Hive对数据去重有两种方法：(1) distinct (2) group by 本文介绍distinct、group by在去重时底层的执行逻辑、数据处理原理，并介绍在不同场景下，应采用哪种方法去重。

5. Hive的三种去重方法

doing a 责任心 dataer

07-03

5738

distinct 不能单独用于指定某一列，必须放在 select 中所有字段的最前面，否则会报错。会先按照指定的列进行分组，然后在每个分组内进行聚合操作，这样可以减少比较的数据量。，并不是只对紧跟其后的 column1 去重。实现去重时，它们的效率会受到多个因素的影响，包括数据规模、数据分布、查询条件等。distinct 对 NULL 是不进行过滤的，即返回的结果中包含NULL值。通常用于复杂的去重需求，它能够在查询结果中为每一行生成一个唯一的序号。，并不是只对紧跟其后的 colA 去重。

2 条评论您还未登录，请先登录后发表或查看评论

group by 效率高还是distinct效率高？你得先看什么数据库。

最新发布

qq_25156781的博客

06-21

635

其实取消这种操作也好，众多数据库中也就mysql有这种排序操作，而且只排序第一个group by 子句中的字段，对于不需要排序的查询需求，无疑是增加不必要的执行负担。可是group by在不同的数据库中语法是区别很大的：比如mysql中比较灵活，group by子句中的字段和select子句中字段关联不大，group by中的字段可以出现在select 中，也可以不出现。而mysql的排序还是仅限于对紧跟group by的第一个字段进行排序，多字段分组的情况下，除了第一个字段，其他的并不做排序。

hive中distinct和group by 去重运行效率对比

weixin_42856363的博客

10-05

1982

hive中distinct和group by 去重运行效率对比。

Mysql Hive中distinct 和 group by 效率

qq_41982570的博客

02-22

1208

Mysql Hive中distinct 和 group by 效率

hive中Distinct和group by去重的对比

XMZHSY的博客

06-09

1756

在Hive中， DISTINCT和GROUP BY都可以用于去重，但是它们背后的实现方式是不同的，因此它们的效率也是不同的。GROUP BY会按照指定的逻辑条件将数据分组，并对每个分组进行统计，最后将分组的结果集合并在一起。DISTINCT是一种去重方法，它会扫描整个数据集，然后将重复的记录删除，只留下唯一的记录。GROUP BY也可以用于去重，但与DISTINCT不同，它可以在数据流中即时地进行去重处理，因此它的。GROUP BY 查询对空间的需求较小，因为其底层数据结构已经是去重的，因此可以。

hive中distinct和group by优化

小白学编程

04-28

5224

1、避免使用count distinct ,容易引起性能问题 select distinct(user_id) from a ; 由于必须去重，因此Hive会把map阶段的输出全部分布到一个reduce task中，容易引起性能问题，可以通过先group by ,再count得方式进行优化优化后：select count(*) from( select user_id from a group ...

Hive中查询操作

01-20

在Hive中，查询操作是数据处理的核心，它允许用户从大数据存储中提取所需的信息。以下将详细解析Hive查询语法及其基本查询方法。一、Hive查询语法 Hive的查询语句遵循标准SQL的基本结构，但也有一些Hive特有的扩展...

部分普通sql查询在hive中的实现方式

11-18

- **背景**：在Hive中，对于单个`GROUP BY`子句下包含多个`COUNT(DISTINCT)`的情况，Hive只能支持其中一个`COUNT(DISTINCT)`。 - **示例**：下面的查询是可以在Hive中正确执行的： ```sql SELECT pv_users....

hive数据倾斜原因分析及解决方案.pdf

08-17

* hive.groupby.skewindata=true：有数据倾斜的时候进行负载均衡。 2. SQL 语句调节： * Join 操作：选择驱动表的选取，选用 join key 分布最均匀的表作为驱动表。 * 大小表 Join：使用 map join 让小的维度表...

Hive进行数据处理1

08-03

外部表是指存储在HDFS中的数据，可以通过Hive进行管理和处理。创建外部表的语句如下： create external table flux ( url string, urlname string, title string, chset string, scr string, col string, lg...

Hive SQL性能优化

02-26

- **COUNT(DISTINCT)**：在大数据量场景下，COUNT(DISTINCT)可能导致大量的数据汇聚到少数Reduce任务中，降低效率。 - **GROUP BY替代**：通过GROUP BY进行分组计数，可以有效分散计算负载。 - **示例**： - ...

hive常见的优化方案ppt

12-15

针对`GROUP BY`和`JOIN`操作，可以通过`hive.groupby.skewindata`、`hive.optimize.skewjoin`等参数调整，使数据均匀分布。对于大小表JOIN，可调整`hive.mapjoin.smalltable.filesize`等相关参数。 3. **避免全局...

Hive_优化——深入浅出学Hive

11-09

5. **GROUP BY**：优化 GROUP BY 操作，可以结合分区和 Bucketing 提升效率。 6. **合并 MapReduce 操作**：通过 Combine 或 Reduce-Side Join 减少中间步骤。 7. **Partition**：利用分区减少数据扫描，提高查询...

hive优化建议.docx

12-21

为解决这个问题，建议使用 `group by` 代替 `count(distinct)`。例如，你可以先通过 `group by columnA` 聚合数据，然后再计算每个分组的数量，这样可以更均匀地分配计算负载。接下来，我们探讨Map阶段的优化。...

Hive常用函数

04-07

在大数据处理领域，Hive 是一个非常重要的工具，它基于 Hadoop 平台，提供了对大规模数据集的结构化查询和分析能力。Hive 的设计初衷是为了降低...因此，在实际使用中，应结合业务场景和性能需求来选择合适的处理方式。

Hive中笔记：三种去重方法，distinct,group by与ROW_Number()窗口函数

weixin_30938149的博客

11-21

5746

一、distinct,group by与ROW_Number()窗口函数使用方法 1. Distinct用法：对select 后面所有字段去重，并不能只对一列去重。（1）当distinct应用到多个字段的时候，distinct必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且distinct只能放到所有字段的前面（2）distinct对NULL是不进...

Hive的distinct和group by性能比较

Running_Tiger的博客

10-26

8439

Hive的distinct和group by性能比较 Hive去重统计当一个表的数据量非常大的时候，会发现一个简单的count(distinct order_no)这种语句跑的特别慢，和直接运行count(order_no)的时间差了很多。在能使用group by代替distinc就不要使用distinct 验证 order_snap为订单的快照表总记录条数763191489，即...

hive group by | distinct区别以及性能比较

TriumPhSk的博客

06-16

1912

select distinct a from t1; select a from t1 group by a; 低版本hive 执行计划： # distinct Stage-Stage-1: Map: 396 Reduce: 1 Cumulative CPU: 7915.67 sec HDFS Read: 119072894175 HDFS Write: 10 SUCCESS # group by Stage-Stage-1: Map: 396 Reduce: 457 Cumulative CPU: 1

hive中distinct和group by的效率

05-05

在Hive中，DISTINCT和GROUP BY都可以用于去重，但它们的执行方式和效率略有不同。 DISTINCT操作会将所有数据都读入内存中进行去重，因此适用于数据量不大的情况。它的效率较高，但会占用较多的内存资源。如果数据量很大，可能导致内存溢出。 GROUP BY操作则是在MapReduce的过程中对数据进行分组，然后对每组进行操作，因此适用于大规模数据的去重。它的效率相对较低，但可以处理大量的数据，不会导致内存溢出。因此，如果数据量较小，可以优先考虑使用DISTINCT操作；如果数据量较大，则需要使用GROUP BY操作。同时，还要根据具体情况进行优化，如使用索引等方式提高效率。