Hive优化

最新推荐文章于 2024-05-01 22:20:02 发布

不良人-程序星

最新推荐文章于 2024-05-01 22:20:02 发布

阅读量327

点赞数 8

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80747901/article/details/135776946

版权

本文主要介绍了如何通过SQL查询优化、列处理、减少job数量、表设计、参数设置（如合并小文件、使用Combiner、压缩、调整map和reduce数）来提升Hive查询的效率，降低资源消耗。

摘要由CSDN通过智能技术生成

1）SQL

a）⾏列过滤

列处理：在 SELECT 中，只拿需要的列，如果有，尽量使⽤分区过滤，少⽤ SELECT * 。

11 ⾏处理：在分区剪裁中，当使⽤外关联时，如果将副表的过滤条件写在 Where 后⾯，那么就

会先全表关联，之后再过滤。

b）减少job数（例如相同的on条件的join放在⼀起作为⼀个任务）。

c）⼩表Join⼤表的时候要把⼩表放前⾯，原因是在Join操作的Reduce阶段，位于Join操作符左边的

表的内容会被加载进内存，将条⽬少的表放在左边，可以减少数据量，可以有效减少发⽣OOM错误的⼏率。

d）使⽤group by 代替 count distinct 完成计算。

e）优先过滤后再进⾏ Join 操作，最⼤限度的减少参与 join 的数据量

2）建表

a）创建分区表或者分桶表，避免全表查询

b）创建表是采⽤列式存储，例如orc或者parquet

3）参数

a）merge输出合并⼩⽂件

SET Hive.merge.mapfiles = true; -- 默认 true，在 map-only 任务结束时合并⼩⽂件

SET Hive.merge.mapredfiles = true; -- 默认 false，在 map-reduce 任务结束时合并⼩⽂件

b）在 Map 执⾏前合并⼩⽂件，减少 Map 数：CombineHiveInputFormat 具有对⼩⽂件进⾏合并

的功能（系统默认的格式）。HiveInputFormat 没有对⼩⽂件合并功能。

c）开启 map 端 combiner（不影响最终业务逻辑）

set Hive.map.aggr=true；

d）压缩（选择快的）

set Hive.exec.compress.intermediate=true --启⽤中间数据压缩 set

mapreduce.map.output.compress=true --启⽤最终数据压缩 set

mapreduce.map.outout.compress.codec=…; --设置压缩⽅式

e）合理设置 map数

mapred.min.split.size: 指的是数据的最⼩分割单元⼤⼩；

min 的默认值是 1B mapred.max.split.size: 指的是数据的最⼤分割单元⼤⼩；

max 的默认值是 256MB 通过调整 max 可以起到调整 map 数的作⽤，减⼩ max 可以增加

map 数，增⼤ max 可以减少 map 数。需要提醒的是，直接调整 mapred.map.tasks 这个参

数是没有效果的。

f）合理设置 Reduce 数过多的启动和初始化 Reduce 也会消耗时间和资源；

另外，有多少个 Reduce，就会有多少个输出⽂件，

不良人-程序星

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Hive优化

b）在 Map 执⾏前合并⼩⽂件，减少 Map 数：CombineHiveInputFormat 具有对⼩⽂件进⾏合并。c）⼩表Join⼤表的时候要把⼩表放前⾯，原因是在Join操作的Reduce阶段，位于Join操作符左边的。min 的默认值是 1B mapred.max.split.size: 指的是数据的最⼤分割单元⼤⼩；表的内容会被加载进内存，将条⽬少的表放在左边，可以减少数据量，可以有效减少发⽣OOM错误的⼏率。mapred.min.split.size: 指的是数据的最⼩分割单元⼤⼩；
复制链接

扫一扫

不良人-程序星 CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

141万+: 周排名

15万+: 总排名

5142: 访问

: 等级

231: 积分

91: 粉丝

111: 获赞

5: 评论

71: 收藏

私信

关注

热门文章

最新评论

Hive建表时为何要分区分桶，有哪些好处？
CSDN-Ada助手: 恭喜您写了第11篇博客！标题很吸引人，我对Hive建表时分区分桶的好处也很感兴趣。通过分区分桶，可以更加高效地管理和查询数据，提升查询性能。此外，它还可以减少数据倾斜和降低磁盘空间的占用，对于大规模数据处理来说尤为重要。在阅读您的博客后，我希望您能进一步探讨一些实际应用场景，比如如何选择合适的分区和桶的策略，以及如何优化查询性能等方面的内容。这样能够让读者更好地理解和应用这些概念。再次恭喜您的连续创作，期待您下一篇博客的发布！谦虚地提出建议，希望能够给您一些启发。
Spark任务的执⾏流程
CSDN-Ada助手: 恭喜您能够写出如此深入的文章，对Spark任务的执行流程进行了详细的介绍，让读者受益匪浅。希望您能继续保持创作的热情，也建议您可以探讨一下Spark任务执行中的优化技巧，或者是与其他大数据处理框架的对比分析，这样会更加丰富您的博客内容。期待您的下一篇文章！
Hive优化
CSDN-Ada助手: 非常祝贺你撰写了第7篇博客《Hive优化》！持续创作是一个很了不起的成就，你的努力和热情值得称赞。通过这篇博客，你向读者分享了关于Hive优化的知识，这对于那些对于提升Hive性能感兴趣的读者来说一定非常有价值。在下一步的创作中，我想向你提出一个建议，那就是多探索一些实际案例来支持你的观点。通过分享一些你在Hive优化方面的实践经验，读者能更好地理解和应用你的建议。此外，你还可以考虑将一些常见的Hive优化问题列举出来，并提供相应的解决方案。这样，读者将能够更好地应对各种挑战，并更好地了解如何优化他们自己的Hive环境。总之，我非常期待你未来的创作，并希望你能继续分享有关Hive优化的知识。谦虚地说，你的博客已经帮助了很多人，而你的下一篇文章将进一步拓宽读者的视野。祝你继续取得更大的成功！
天数连续登录问题
CSDN-Ada助手: 非常棒的博文！你对于天数连续登录问题的探讨非常详细，代码也很清晰易懂。希望你能继续创作，分享更多有趣的技术问题和解决方案。除了你在博文中提到的代码实现，还可以考虑一些扩展知识和技能。比如，你可以介绍一些常见的登录验证方式，如基于令牌的身份验证、双因素认证等，以及它们在保护用户账号安全方面的作用。另外，你还可以探讨一些用户登录行为分析的方法，通过分析用户的登录模式和习惯，提升用户体验和安全性。希望以上建议能对你有所帮助，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
常用的linux命令
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“常用的linux命令”，这是一个非常实用的主题。通过您的分享，读者们可以学习到关于Linux命令的常见用法，对于初学者来说，这无疑是一份宝贵的参考资料。我希望您能够继续保持创作的热情，分享更多关于Linux的知识和经验。在下一篇博客中，或许您可以探索一些高级的Linux命令，或者分享一些实际应用场景下的技巧与技巧。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。