mapreduce 内存分配（资源相关参数）

最新推荐文章于 2021-09-22 18:34:24 发布

雾岛与鲸

最新推荐文章于 2021-09-22 18:34:24 发布

阅读量2.6k

点赞数 1

分类专栏： hadoop 文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/qq_36039236/article/details/107820222

版权

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

稍微对mapreduce有点使用经验的同学肯定对OOM并不陌生，对的，我目前在mapreduce里面遇到的最多的错误也是内存分配出错，所以看到好多hadoop执行脚本里面有好多关于内存的参数，虽然是知道和内存分配有关系，但是依然不太清楚其中的原理，查阅相关资料，稍作整理如下:

关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在这里将理解的东西做一个简单的记录，以备忘却。

首先，先将关于mapreduce和yarn关于内存分配的参数粘贴上:

yarn.scheduler.minimum-allocation-mb
yarn.scheduler.maximum-allocation-mb
yarn.nodemanager.resource.memory-mb
yarn.nodemanager.vmem-pmem-ratio
yarn.scheduler.increment-allocation-mb
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
mapreduce.map.java.opts
mapreduce.reduce.java.opts

个人认为，针对mapreduce任务，这些参数只有放在一起学习才能真正理解，如果单独考虑，理解不清晰。下面开始详细讲解。

一、理解参数yarn.nodemanager.resource.memory-mb、yarn.nodemanager.vmem-pmem-ratio

yarn.nodemanager.resource.memory-mb 很简单，就是你的这台服务器节点上准备分给yarn的内存;
yarn.nodemanager.vmem-pmem-ratio 网上解释都是“每使用1MB物理内存，最多可用的虚拟内存数，默认2.1”，但是目前我还不是太理解作用是什么。

二、理解参数yarn.scheduler.minimum-allocation-mb 和 yarn.scheduler.maximum-allocation-mb

都知道，在yarn上运行程序时每个task都是在独立的Container中运行的，单个Container可以申请的最小和最大内存的限制就是这两个参数，注意，并不是这两个参数决定单个Container申请内存的大小，而仅仅是限制的一个范围。

三、理解yarn的内存规整化因子和内存规整化算法

先不说和哪个参数有关，单纯理解这一概念。举例:
例如规整化因子b=512M，上述讲的参数yarn.scheduler.minimum-allocation-mb为1024，yarn.scheduler.maximum-allocation-mb为8096，然后我打算给单个map任务申请内存资源(mapreduce.map.memory.mb):
申请的资源为a=1000M时，实际得到的Container内存大小为1024M(小于yarn.scheduler.minimum-allocation-mb的话自动设置为yarn.scheduler.minimum-allocation-mb);
申请的资源为a=1500M时，实际得到的Container内存大小为1536M，计算公式为:ceiling(a/b)b，即ceiling(a/b)=ceiling(1500/512)=3, 3512=1536。此处假如b=1024，则Container实际内存大小为2048M
也就是说Container实际内存大小最小为yarn.scheduler.minimum-allocation-mb值，然后增加时的最小增加量为规整化因子b，最大不超过yarn.scheduler.maximum-allocation-mb

四、理解mapreduce.map.memory.mb、mapreduce.reduce.memory.mb

“三”中提到的“打算给单个map任务申请内存资源”也就是a, 其实就是指“mapreduce.map.memory.mb” 或 “mapreduce.reduce.memory.mb”, 注意，其值不要超过yarn.scheduler.maximum-allocation-mb

五、理解mapreduce.map.java.opts、mapreduce.reduce.java.opts

以map任务为例，Container其实就是在执行一个脚本文件，而脚本文件中，会执行一个java的子进程，这个子进程就是真正的Map Task, mapreduce.map.java.opts其实就是启动 JVM 虚拟机时，传递给虚拟机的启动参数，而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数，一旦超过这个大小，JVM 就会抛出 Out of Memory 异常，并终止进程。而 mapreduce.map.memory.mb 设置的是 Container 的内存上限，这个参数由 NodeManager 读取并进行控制，当这个参数值超过了 Container 的内存大小，NodeManager 会负责 kill 掉 Container。在后面分析 yarn.nodemanager.vmem-pmem-ratio 这个参数的时候，会讲解 NodeManager 监控 Container 内存（包括虚拟内存和物理内存）及 kill 掉 Container 的过程。
也就是说，mapreduce.map.java.opts 一定要小于 mapreduce.map.memory.mb，
mapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。

六、理解规整化因子指的是哪个参数

“三”中提到的规整化因子也就是b, 具体指的是哪个参数和yarn使用的调度器有关，一共有三种调度器: capacity scheduler（默认(容量调度器)）、fair scheduler 和 fifo scheduler。
当使用capacity scheduler或者fifo scheduler时，规整化因子指的就是参数yarn.scheduler.minimum-allocation-mb，不能单独配置，即yarn.scheduler.increment-allocation-mb无作用;
当使用fair scheduler时，规整化因子指的是参数yarn.scheduler.increment-allocation-mb
至此，关于yarn和mapreduce的任务内存配置问题讲完了，这也是我目前理解的层次。

雾岛与鲸

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
mapreduce 内存分配（资源相关参数）

稍微对mapreduce有点使用经验的同学肯定对OOM并不陌生，对的，我目前在mapreduce里面遇到的最多的错误也是内存分配出错，所以看到好多hadoop执行脚本里面有好多关于内存的参数，虽然是知道和内存分配有关系，但是依然不太清楚其中的原理，查阅相关资料，稍作整理如下:关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在这里将理解的东西做一个简单的记录，以备忘
复制链接

扫一扫