Hadoop集群内存优化

MapReduce map task 和reduce task 数量设置规则
1、map task的个数=输入文件总大小/分片尺寸。也就是说分片尺寸越大,map task的个数就越少=>系统执行的开销越小,系统管理分片的开销越小。
2、网络传输开销,如果分片太大以至于一个分片要跨越多个HDFS块,则一个map任务必须要由多个块通过网络传输,所以分片大小的上限是HDFS块的大小。
3、reduce task的个数=合适的reduce task数量是0.95或者0.75*( nodes * mapred.tasktracker.reduce.tasks.maximum)
nodes:节点个数
mapred.tasktracker.reduce.tasks.maximum:每一个节点所分配的Reducer任务槽的个数,一般为节点cpu数量
cpu数量 = 服务器CPU总核数 / 每个CPU的核数
服务器CPU总核数 = more /proc/cpuinfo | grep ‘processor’ | wc -l
每个CPU的核数 = more /proc/cpuinfo | grep ‘cpu cores’
比如8线程的服务器,双核,那么cpu数量=8/2 =4

MapReduce内存设置
mapreduce.map.memory.mb和mapreduce.reduce.memory.mb分别是分配的Map和Reduce内存大小。

    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>4096</value>
    </property>

    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx4096M</value>
    </property>

    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>6144</value>
    </property>

    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx6144M</value>
    </property>

通过提交作业参数来设置Map和Reduce内存大小

hadoop jar $Jar $Class \
    -D mapred.job.queue.name=${ququename} \
    -D mapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat \
    -D mapreduce.output.fileoutputformat.compress=true \
    -D mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec \
    -D mapreduce.map.memory.mb=4096 \
    -D mapreduce.reduce.memory.mb=4096 \
Hadoop集群优化是指通过一系列措施来提高Hadoop集群的性能和效率。下面是一些常用的Hadoop集群优化方法: 1. 适当调整Hadoop配置参数:通过调整Hadoop的配置参数,如内存大小、线程数、文件系统缓存等,可以优化集群的性能。合理地设置这些参数可以提高任务的执行速度和整个集群的效率。 2. 使用数据压缩:在Hadoop集群中,可以启用数据压缩来减少磁盘占用空间和网络传输的开销。通过减小文件的大小,可以提高数据的读取和写入速度,从而提高任务的执行效率。 3. 数据划分和分区:合理地划分和分区数据可以提高数据的读取和处理效率。通过将相关数据存放在同一个节点或者同一个数据块中,可以减少数据的迁移和网络传输的开销,从而提高任务的执行速度。 4. 使用数据本地化:Hadoop集群在执行任务时,会将数据从存储节点上移动到计算节点进行处理。如果任务的输入数据能够在计算节点的本地磁盘上找到,可以大大减少数据的传输时间,提高任务的执行速度。 5. 资源调度和作业调度:合理地调度资源和作业可以充分利用集群的计算能力,提高任务的执行效率。优化资源调度和作业调度算法,可以保证高优先级的任务先执行,避免资源浪费和任务阻塞。 6. 数据备份和容错机制:在Hadoop集群中,数据备份和容错机制是非常重要的。通过增加数据备份的副本数,可以提高数据的容错性和可靠性。合理地设置副本数目,可以平衡存储空间和数据处理效率之间的关系。 通过以上优化方法,可以提高Hadoop集群的性能和效率,提升任务的执行速度和数据处理能力。不同的优化方法可以根据具体的需求和情况进行选择和调整,以达到最佳的优化效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值