内存溢出问题的解决方案

在大数据开发测试时,可以通过分区或分桶采样的方式

分区针对的是固定日期,而分桶采样则侧重随机,更具有代表性。由于第一次是全量抽取数据,所以日期分区下的数据非常庞大,此时使用分桶来进行采样测试可以大幅提升效率。

在select之前可以添加Explain,先来查看查询执行计划(不是实际运行mapreduce),可以看到分桶采样已经生效,提高了开发和测试效率。

执行select语句进行抽样时发现报错(处理的数据量大时都可能报此错误):

解决方法:

在执行SQL前,设置:

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;

 

一般来说,遇到因硬件配置而导致的内存溢出问题,有两个思路:

1. 硬件内存充足的情况:

修改参数: mapreduce.map.java.opts、mapreduce.reduce.java.opts、

                  mapreduce.map.memory.mb、mapreduce.reduce.memory.mb。

                 增加内存:-Xmx4096m,值根据配置调整。

注意:

mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb;

mapreduce.reduce.java.opts一定要小于mapreduce.reduce.memory.mb,格式-Xmx4096m。

 

以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数,一旦超过这个大小,JVM 就会抛出 Out of Memory 异常,并终止进程。而mapreduce.map.memory.mb设置的是 Container 的内存上限,这个参数由 NodeManager 读取并进行控制,当 Container 的内存大小超过了这个参数值,NodeManager 会负责 kill 掉 Container。

也就是说,mapreduce.map.java.opts一定要小于mapreduce.map.memory.mbmapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。

 

2. 硬件内存不足的情况

关闭Map Join后再次尝试,但过程会比较慢。也可以通过where条件,按照日期分批进行清洗转换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值