【工程类】【Hadoop】性能调优方法

当我们写完一个MR程序之后,我们希望能够加快程序的执行速度,那么怎么进行性能的调优呢,有如下几种方法?

1、mapper的数量

适当调整mapper的数量,使得每个mapper的运行时间在1分钟为宜。因为mapper数量过小,则会导致整体速度过慢。太多则导致文件的寻址开销,以及namenode和datanode的交互更加频繁。

2、reducer的数量

集群中reducer的数量应该略少于reducer的任务槽数。这将使reducer能够在同一个周期完成。充分利用集群。

3、combiner

合理的利用combiner,减少中间mapper —> reducer过程中数据的传输数量。

4、中间值的压缩

将mapper的输出进行压缩

5、shuffle

内存中的shuffle过程可以对内存的参数进行一些调整,以弥补性能的不足。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值