hadoop作业的优化常用手段

在mapreduce应用机制全部完成后,常面临一个常见问题“作业运行太慢”,此时我们需要通过一下几个方面进行调优,一边提升作业运行速度

(1)通过jobtracker的web界面可以查看到本次作业使用的mapper数量,查看每个mapper的平均运行时间,如果mapper运行时间过短(如每个mapper运行10多秒),此时苗明mapper没有得到良好的利用,我们需要减少mapper的数量,使每个maper运行更长的时间。mapper的运行时间取决于mapper输入数据的格式,因此我们可以调整mapper的输入格式。

(2)通过Jobtracker的web界面查看本次作业的reducer数量,集群中的reducer数量应该略小于reducer的任务槽数,使reducer能够在同一个周期完成任务,避免因动态管理产生一个reducer处理俩个任务的情况。

(3)combiner使用是否合理,充分利用combiner可以减少shuffle传输的数据量,网络传输减少了,作业运行速度自然就快了,但combiner要谨慎使用,视情况而定,取平均值得作业尽量不要使用combiner了,会产生较大偏差。

(4)与3类似,还有一种减少网络传输的方式,对map的输出进行压缩,压缩后的数据量减小,同样减轻了网络传输的压力

(5)为了作业排序更合理,可以自定义序列,自定义comparator,但需要注意的是必须确保已实现RawComparator

(6)最后可以调整shuffle,可以调整一些内存管理的参数,以弥补性能的不足

写的比较粗糙,有时间将其中一些细节会补齐。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值