Hive查询中的优化

November丶Chopin

已于 2023-04-10 15:09:06 修改

阅读量490

点赞数

分类专栏：专栏02-大数据与数据分析文章标签： hive 大数据 hadoop

于 2023-02-26 17:30:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012762410/article/details/129228802

版权

专栏02-大数据与数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

前言
优化策略
- 推荐使用group by代替distinct去重

前言

优化策略

推荐使用group by代替distinct去重

参考：

重要结论： 两者都会在map阶段count，但reduce阶段，distinct只有一个， group by 可以有多个进行并行聚合，所以group by会快。

distinct 只生成一个reducer任务，所有的id都聚集到同一个reducer任务进行去重然后在聚合，非常容易造成数据倾斜。distinct耗费内存，可能产生OOM，但效率高。
group by 将数据分组到了多个reducer上进行处理，所以较快。groupby排序消耗时间更多，在时间复杂度允许下，空间复杂度更低。

例子：
在一个具有5,563,985,064个记录的hive表中，对其中的两个字段进行查询，耗时如下：

-- 耗时00:11:17
select col1,col2
from 库名xxx.表名xxx
where ds=20230224
group by col1,col2;

-- 耗时00:25:07
select distinct col1,col2
from 库名xxx.表名xxx where ds=20230224;

【其他优化策略待更新】

November丶Chopin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive查询中的优化

hive使用group by代替distinct去重
复制链接

扫一扫

专栏目录

November丶Chopin CSDN认证博客专家 CSDN认证企业博客

码龄11年

76: 原创

2204: 周排名

87万+: 总排名

59万+: 访问

: 等级

2595: 积分

2万+: 粉丝

1055: 获赞

133: 评论

2458: 收藏

私信

关注

热门文章

分类专栏

最新评论

图论中的聚类系数(Clustering coefficient)简单介绍
Dhx20010329: 邻居内封闭的三角形的比例：如图1所示，A的邻居为(P1,P2,P3)与A最多形成3个三角形中的三角形P1P2P3写错了吧，应该是三角形AP1P3
AUC的三种计算方法及代码
一个学数学的程序媛: 想请教下sklearn.metrics.roc_auc_score是用什么哪个方法写的，为何运行时间会快这么多呢
Python numpy.transpose 详解
HHHr1227: 通俗易懂
Python numpy.transpose 详解
wangguoyan488911: A = A.reshape(2,2,4)意思是把16个数字分为上下2（0轴）部分，每部分2（1轴）行，每行4（2轴）个数字。描述有几部分用0轴，描述有几行用1轴，描述有几个数字用2轴。那么数字6就是在第1部分的第2行的第3个数字，所以坐标为[0][1][2],那么0轴和1轴交换后，0轴依然表示分成的部分，1轴依然表示有几行，2轴依然表示有几个数字。那么6现在在第2部分、第1行、第3个数字，那么坐标变成了[1][0][2]。数字6主要是从第1部分的第2行，变成了第2部分的第1行，这就是轴交换带来的，我是这么理解的
Python numpy.transpose 详解
kathy_wnw: 我一开始没看懂三维的，然后按照二维的这个x[0][0] == 0 x[0][1] == 2 x[1][0] == 1 x[1][1] == 3写了一遍三维就懂了 #A[0][0] == [0,1,2,3] #A[0][1] == [4,5,6,7] #A[1][0] == [8,9,10,11] #A[1][1] == [12,13,14,15] #A[0][0][0] == 0 #A[0][0][1] == 1 #A[0][0][2] == 2 #A[0][0][3] == 3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。