hive语句执行时报Java heap space解决办法

最新推荐文章于 2024-08-02 16:52:05 发布

置顶你代码写的像cxk

最新推荐文章于 2024-08-02 16:52:05 发布

阅读量5.4k

点赞数 2

分类专栏： hive 文章标签： hive 大数据 java heap space 出错 oom

本文链接：https://blog.csdn.net/weixin_42262699/article/details/88681616

版权

hive 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在脚本里加上参数设置
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
这句话的意思是执行Map前进行小文件合并
内存不足分为三种情况来看
1.发生在map阶段
一般存在MapJoin
通过设置参数set hive.auto.convert.join = false转成reduce端的Common Join
2.发生在shuffle阶段
由于map的输出较大，但shuffle阶段选择的是拷贝map输出到内存导致。
降低单个shuffle能够消耗的内存占reduce所有内存的比例（set mapreduce.reduce.shuffle.memory.limit.percent=0.10），使得shuffle阶段拷贝map输出时选择落磁盘
3.发生在reduce阶段
单个reduce处理数据量过大
通过设置参数mapred.reduce.tasks 或mapreduce.job.reduces 修改reduce个数分散压力
如果存在数据倾斜的情况，单纯修改reduce个数没有用