Hadoop集群内存优化

最新推荐文章于 2022-05-07 21:41:22 发布

chenlly99

最新推荐文章于 2022-05-07 21:41:22 发布

阅读量1k

点赞数

文章标签： Hadoop 大数据分布式

本文链接：https://blog.csdn.net/cdl2008sky/article/details/79026884

版权

MapReduce map task 和reduce task 数量设置规则
1、map task的个数=输入文件总大小/分片尺寸。也就是说分片尺寸越大，map task的个数就越少=>系统执行的开销越小，系统管理分片的开销越小。
2、网络传输开销，如果分片太大以至于一个分片要跨越多个HDFS块，则一个map任务必须要由多个块通过网络传输，所以分片大小的上限是HDFS块的大小。
3、reduce task的个数=合适的reduce task数量是0.95或者0.75*( nodes * mapred.tasktracker.reduce.tasks.maximum)
nodes:节点个数
mapred.tasktracker.reduce.tasks.maximum：每一个节点所分配的Reducer任务槽的个数，一般为节点cpu数量
cpu数量 = 服务器CPU总核数 / 每个CPU的核数
服务器CPU总核数 = more /proc/cpuinfo | grep ‘processor’ | wc -l
每个CPU的核数 = more /proc/cpuinfo | grep ‘cpu cores’
比如8线程的服务器，双核，那么cpu数量=8/2 =4

MapReduce内存设置
mapreduce.map.memory.mb和mapreduce.reduce.memory.mb分别是分配的Map和Reduce内存大小。

    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>4096</value>
    </property>

    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx4096M</value>
    </property>

    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>6144</value>
    </property>

    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx6144M</value>
    </property>

通过提交作业参数来设置Map和Reduce内存大小

hadoop jar $Jar $Class \
    -D mapred.job.queue.name=${ququename} \
    -D mapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat \
    -D mapreduce.output.fileoutputformat.compress=true \
    -D mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec \
    -D mapreduce.map.memory.mb=4096 \
    -D mapreduce.reduce.memory.mb=4096 \