Hive 优化-参数设置

最新推荐文章于 2024-07-29 10:11:46 发布

置顶

fengzheku

最新推荐文章于 2024-07-29 10:11:46 发布

阅读量6.3k

点赞数 2

分类专栏： Hive Hadoop 大数据文章标签： Hive 优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengzheku/article/details/85004760

版权

参考链接：

https://blog.csdn.net/WYpersist/article/details/79797075
https://blog.csdn.net/baidu_29843359/article/details/46967473
http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.html map数的计算
https://blog.csdn.net/wisgood/article/details/42125367 reduce数的计算
https://segmentfault.com/q/1010000006692189/a-1020000006692368 Full GC相关
https://blog.csdn.net/weixin_38750084/article/details/82713157 HiveQL如何排查数据倾斜问题
https://blog.csdn.net/djd1234567/article/details/51581201 文件合并和压缩

查看hive参数：set -v

1、sql中存在的查询操作无直接关联，可以并行执行。如union all操作，可以开启并行执行。

<!--开启任务并行执行—>

set hive.exec.parallel=true;

<!-- 同一个sql允许并行任务的最大线程数—>

set hive.exec.parallel.thread.number=8;

2、数据倾斜调优

数据倾斜产生原因：

（1）group by 维度过小，某一值的数量过多，导致处理此值的reduce非常耗时。

（2）count(distinct x) 某特殊值过多，处理此特殊值的reduce耗时。

（3）join a.小表关联大表，其中小表的关联键key比较集中，导致分发到某一个或某几个reduce的数据远高于平均值。

b.大表关联大表时，关连键key中空值特别多，导致这些空值都进入到一个reduce里，使此reduce运行慢。

数据倾斜体现：

(1) 某个reduce task 运行时间特别长，卡在99%半天不动。

(2) 任务超时被杀掉，Reduce处理的数

最低0.47元/天解锁文章

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
Hive 优化-参数设置

参考链接：https://blog.csdn.net/WYpersist/article/details/79797075 https://blog.csdn.net/baidu_29843359/article/details/46967473 http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.html map数的计算 https://bl...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。