MapReduce太慢了,记一次对它的调优建议。

本文探讨了MapReduce的调优策略,包括在mapper和reducer中的代码优化,如利用combine减少网络输出和设置输出压缩。reducer调优涉及调整其数量以充分利用集群资源,同时考虑对特定MR程序的影响。此外,还介绍了runner调优,涵盖JVM参数、推测执行和压缩设置等,以提高MapReduce作业的效率。
摘要由CSDN通过智能技术生成
  • 代码调优

    代码调优,主要是mapper和reducer中,针对多次创建的对象,进行代码提出操作。这个和一般的java程序的代码调优一样。

  • mapper调优

    mapper调优主要就是就一个目标:减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优。
    combine介绍:
        实现自定义combine要求继承reducer类,特点:
        以map的输出key/value键值对作为输入输出键值对,作用是减少网络输出,在map节点上就合并一部分数据。
        比较适合,map的输出是数值型的,方便进行统计。
    压缩设置:
        在提交job的时候分别设置启动压缩和指定压缩方式。

  • reducer调优

    reducer调优主要是通过参数调优和设置reducer的个数来完成。
    reducer个数调优:
        要求:一个reducer和多个reducer的执行结果一致,不能因为多个reducer导致执行结果异常。
        规则:一般要求在hadoop集群中的执行mr程序,map执行完成100%后,尽量早的看到reducer执行到33%,可以通过命令hadoop job -status job_id或者web页面来查看。
            原因: map的执行process数是通过inputformat返回recordread来定义的;而

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值