内存溢出问题的解决方案

最新推荐文章于 2023-04-26 14:32:03 发布

Autumn_tears

最新推荐文章于 2023-04-26 14:32:03 发布

阅读量739

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Autumn_tears/article/details/108133141

版权

在大数据开发测试时，可以通过分区或分桶采样的方式。

分区针对的是固定日期，而分桶采样则侧重随机，更具有代表性。由于第一次是全量抽取数据，所以日期分区下的数据非常庞大，此时使用分桶来进行采样测试可以大幅提升效率。

在select之前可以添加Explain，先来查看查询执行计划（不是实际运行mapreduce)，可以看到分桶采样已经生效，提高了开发和测试效率。

执行select语句进行抽样时发现报错（处理的数据量大时都可能报此错误）：

解决方法：

在执行SQL前，设置：

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;

一般来说，遇到因硬件配置而导致的内存溢出问题，有两个思路：

1. 硬件内存充足的情况：

修改参数： mapreduce.map.java.opts、mapreduce.reduce.java.opts、

mapreduce.map.memory.mb、mapreduce.reduce.memory.mb。

增加内存：-Xmx4096m，值根据配置调整。

注意：

mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb；

mapreduce.reduce.java.opts一定要小于mapreduce.reduce.memory.mb，格式-Xmx4096m。

以map任务为例，Container其实就是在执行一个脚本文件，而脚本文件中，会执行一个 Java 的子进程，这个子进程就是真正的 Map Task，mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时，传递给虚拟机的启动参数，而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数，一旦超过这个大小，JVM 就会抛出 Out of Memory 异常，并终止进程。而mapreduce.map.memory.mb设置的是 Container 的内存上限，这个参数由 NodeManager 读取并进行控制，当 Container 的内存大小超过了这个参数值，NodeManager 会负责 kill 掉 Container。

也就是说，mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb，mapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。

2. 硬件内存不足的情况

关闭Map Join后再次尝试，但过程会比较慢。也可以通过where条件，按照日期分批进行清洗转换。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。