hive 优化

最新推荐文章于 2024-08-16 12:21:18 发布

小小聪

最新推荐文章于 2024-08-16 12:21:18 发布

阅读量372

点赞数

分类专栏： hive 文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/servletwjx/article/details/80015367

版权

本文详细介绍了Hive的优化方法，包括SQL优化（如去除多余列、利用分区信息等）、平台优化（如使用Tez或Spark）、架构优化（如分区、压缩）以及MapReduce层面的调整，通过实例分析了如何控制map和reduce数量以提高执行效率，还讨论了count(distinct)的优化和数据倾斜的解决策略，提供了实际操作建议。

摘要由CSDN通过智能技术生成

一 .Sql 优化：

1. 根据不同的业务场景进行sql优化

2. 去除查询过程中不需要的 column

3. Where 条件判断再 tablescan 阶段就进行过滤

4. 利用partition信息获取有效的数据信息

5. Map端的jion 以大表做驱动小表加入内存当中

6. 调整jion的顺序进来使大表作为驱动表。

7. 对数据分布不均匀的表进行group by 时, 为了避免数据集中到 reduce 可以分成两个阶段来执行第一阶段利用distionct 第二阶段再进行group by 。

二．平台方面的优化

hive on tez

Hive spark

通过使用其他的计算引擎框架

三 .整体架构方面的优化

现阶段 hive的整体架构不紧可以支持 MapReduces 并且支持 Tez ,Spark 等计算引擎。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。