Hive知识之优化技巧

最新推荐文章于 2023-11-29 11:12:48 发布

恋恋风尘hhh

最新推荐文章于 2023-11-29 11:12:48 发布

阅读量751

点赞数 1

分类专栏： Hive知识文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42384784/article/details/105459086

版权

本文介绍了Hive的优化方法，包括用GROUP BY替换DISTINCT提高去重效率，使用MAPJOIN优化JOIN操作，用DISTINCT+ UNION ALL代替UNION，利用GROUPING运算符进行聚合分组，开启并发执行UNION ALL，使用函数进行行列转换，以及表连接和过滤优化。同时，针对数据倾斜问题，提出了数据倾斜的表现、原因及解决办法。

摘要由CSDN通过智能技术生成

文章目录

1、用GROUP BY替换DISTINCT去重

在极大的数据量且有很多重复值时，可以先 GROUP BY 去重，再使用 COUNT()计数，效率要高于 COUNT(DISTINCT)
去重字段的重复值时，使用 GROUP BY 效率也会比 DISTINCT 高

SElECT user_name
FROM trade
GROUP BY user_name;

2、使用MAPJOIN

HSQL中涉及到多张表的JOIN，当有一张表的大小小于1G时，使用MAPJOIN可以明显的提高SQL的效率。
不过需要注意的是，如果最小的表大于1G，使用MAPJOIN会出现OOM的错误。

SElECT /*+ MAPJOIN(table_a)*/,
		a.*,
		b.* 
FROM table_a a 
JOIN table_b b 
ON a.id = b.id

3、使用DISTINCT+ UNION ALL代替UNION

如果遇到要使用UNION 去重的场景，使用DISTINCT+ UNION ALL比使用UNION 的效果好。

SElECT COUNT

最低0.47元/天解锁文章

恋恋风尘hhh

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。