mapreduce作业reduce被大量kill掉

最新推荐文章于 2023-09-14 11:26:58 发布

置顶

快乐程序员

最新推荐文章于 2023-09-14 11:26:58 发布

阅读量6k

点赞数 2

分类专栏： hadoop2.0 yarn 文章标签： map reduce RM 延迟启动

本文链接：https://blog.csdn.net/bigdatahappy/article/details/41950909

版权

在Hadoop2.4集群中，由于YARN的特性，MapReduce作业的Reduce任务可能会过早启动，导致资源利用率低和Map任务饿死。通过调整`mapreduce.job.reduce.slowstart.completedmaps`和`yarn.app.mapreduce.am.job.reduce.rampup.limit`参数，如将前者设为0.5，后者设为0.2，可以在Map任务完成50%后再启动Reduce任务，并限制在Map全部完成前只启动20%的Reduce任务，有效避免了Reduce任务被kill的情况。

摘要由CSDN通过智能技术生成

之前有一段时间，我们的hadoop2.4集群压力非常大，导致提交的job出现大量的reduce被kill掉，相同的job运行时间比在hadoop0.20.203上面长了很多，这个问题其实是reduce 任务启动时机的问题，由于yarn中没有map slot和reduce slot的概念，且ResourceManager也不知道map task和reduce task之间的依赖关系，因此MRAppMaster自己需要设计资源申请策略以防止因reduce task过早启动照成资源利用率低下和map task因分配不到资源而饿死，然后通过抢占机制，大量reduce任务被kill掉。MRAppMaster在MRv1原有策略（map task完成数目达到一定比例后才允许启动reduce task）基础上添加了更为严格的资源控制策略和抢占策略：

1、mapreduce.job.reduce.slowstart.completedmaps
当map 任务完成