大数据——Hive SQL优化

最新推荐文章于 2025-04-18 00:19:18 发布

长不大的大灰狼

最新推荐文章于 2025-04-18 00:19:18 发布

阅读量1.2k

点赞数 1

分类专栏：大数据文章标签： hive 大数据 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/glpghz/article/details/126840701

版权

大数据专栏收录该内容

20 篇文章

订阅专栏

本文介绍了HiveSQL的优化策略，包括减少SELECT字段数量、避免不必要的JOIN操作、解决数据倾斜问题、保持JOIN键一致以及处理空值。通过选择最优的JOIN顺序、使用sortby替换orderby、用groupby替代count(distinct)以及提前过滤空值，可以显著提升查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据——Hive SQL优化

一、SELECT 字段尽可能少，数据过滤尽可能提前

在这里插入图片描述

二、能不用JOIN连接的就不用

在这里插入图片描述

三、数据倾斜问题

1、JOIN 优化
选用join key分布最均匀的表作为驱动表，并且大表放在右边，小表放在左边。

2、排序优化
sort by代替 order by.

3、少用count(distinct)
用group by代替 count(distinct)

select count(*) from (select uid from testmac group by uid) t

四、多表join时key保持一致

当对多个表进行join连接时，如果每个on子句都使用相同的连接键的话，那么只会产生一个MapReduce job，执行效率相对快。

五、去除空值和无意义的值

出现空值或无意义值时，如null，空字符串、-1等，在做join时这些空值就会非常集中，拖累进度。因此，若不需要空值数据，就提前写where语句过滤掉。若需要保留，将空值null的记录随机改为负值：

长不大的大灰狼

博客等级

码龄7年

379
原创

470
点赞

2503
收藏

1032
粉丝

关注

私信

热门文章

分类专栏

消息中间件 1篇
Docker 1篇
Mybatis 8篇
SpringBoot 21篇
Spring 14篇
Java开发常用工具 11篇
导航栏 2篇
多线程 15篇
项目常见问题处理 20篇
Java常用知识点 11篇
数据结构进阶 5篇
Java项目 9篇
论文常用 4篇
JavaEE 11篇
Linux 7篇
前端知识 30篇
Java基础题 25篇
JavaWeb 34篇
Java编程题 50篇
Java 64篇
大数据 20篇
常用工具 1篇
测试 3篇
C# 14篇
JPA 3篇
Mysql 26篇
Excel
python 4篇

展开全部收起

最新评论

Java设计模式
天蓝999: 可以的，我看的另一个神仙级Java设计模式实战，它结合SpringBoot，我彻底学会了Java设计模式及应用：https://knife.blog.csdn.net/article/details/131900171
统一建模语言——UML
_kooo: 确实不错，请问这篇文章的示例图，是用什么软件绘制的呢
大文件上传处理：分卷压缩
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大文件上传处理：分卷压缩
猫头虎: 🌈🐅🚀 大佬，这篇博客真是太赞了！结构清晰，内容丰富，每个点都讲得很透彻。猫头虎🐅在线等更多佳作！🖥️
Hive 常用函数
技术小白的奋斗记: 3和4 列转行行转列是不是写反了

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。