YARN和MapReduce的内存设置参考

本文介绍了如何为YARN和MapReduce设置内存参数,包括使用HDP配置工具脚本和手动计算方法。建议根据集群硬件资源,如CPU、内存和磁盘,以及系统预留内存来确定容器数量和大小。还提到了NameNode的堆大小设置,并指出在YARN上运行MapReduce时不再设置静态的Map和Reduce任务。
摘要由CSDN通过智能技术生成

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。

完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定

运行hdp-configuration-utils.py 这个Python脚本(下载地址:hdp-configuration-utils来计算YARN、MapReduce需要的内存,执行以下命令

python hdp-configuration-utils.py options

其中可选项如下:

选项

描述

-c CORES

每一个客户机的核数目

-m MEMORY

每一个客户机拥有的内存总数

-d DISK

每一个客户机拥有的磁盘数目

-k HBASE

如果Hbase安装了为”True”,否则为”False”

注:需要python26的运行环境

我们可以使用-h或-help来显示描述选项的帮助信息。

例子

运行下面的命令

python hdp-configuration-utils.py -c 16 -m 64 -d 4 -k True

结果如下:

1.png

手动计算YARN和MapReduce内存配置设置

接下来我们将描述如何基于特定的硬件,手工的设置YARN和MapReduce内存。

YARN可以考虑集群中所有节点的可用的计算机资源。基于可用的资源,YARN会沟通协调应用程序(如:mapReduce)需要的资源。YARN会为每一个应用提供相应的容器Container。容器Container是YARN的基本处理单元,是内存和CPU资源的一种封装。

在Hadoop集群中,平衡内存RAM、处理器cpu和磁盘的使用是非常重要的。作为一般的推荐,为每个磁盘和每个核分配两个容器,为集群的利用率提供了最好的平衡。

当为一个集群决定合适的YARN和MapReduce内存设置时,从可用的硬件资源开始,注意每个节点的以下值:

RAM(内存的数量)

CORES(CPU的核数)

DISKS(磁盘的数目)

整个针对YARN和MapReduce可用的RAM数,应该考虑预留的内存。预留的内存主要用于系统进程占用和其它Hadoop进程(如Hbase)。

预留的内存=保留栈内存+Hbase预留内存(如果Hbase是部署在同一台机器上)

 

我们通常会使用下表来决定预留内存的大小

每个节点的总内存

推荐系统保留的内存

推荐为hbase保留的内存

4GB

1GB

1GB

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值