Hive的调优方式

最新推荐文章于 2024-09-14 09:34:44 发布

lovely_biu

最新推荐文章于 2024-09-14 09:34:44 发布

阅读量144

点赞数 7

分类专栏：大数据知识点汇总文章标签： hive hadoop 数据仓库大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40826400/article/details/141624541

版权

大数据知识点汇总专栏收录该内容

2 篇文章 0 订阅

订阅专栏

接上文提到的离线处理流程，本文主要阐述一下Hive的几种调优方式

HIve调优

数据倾斜

数据倾斜：数据分散度不够，导致数据几种在某几台机器计算，从而使得计算速度大幅度下降
数据倾斜的原因归纳：

group by
distinct XX
join

调优方式

调优参数

在map中做部分聚焦操作，效率会提高，不过可能需要更多内存
set hive.map.aggr = true;
生成的查询计划会有两个MRjob，实现数据倾斜时负载均衡
set hive.groupby.skewindata = true;

map side join

较小和较大表连接时，较小表放在内存中，再与较大表进行map操作
set hive.auto.convert.join = true

并行化执行

每个查询会被Hive转换为多个阶段，关联性不大时，可以并行执行，减少整个任务的运行时间

开启任务并行执行
set hive.exec.parallel = true；
设置同一个sql允许最大并行线程数
set hive.exec.parallel.thread.number = 8；

综上所诉，如果再开发过程遇到相关问题，可以尝试使用以上设置语句尝试一下，或许有意想不到的速度和性能的提升。

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lovely_biu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。