大集群Hadoop Yarn队列pending优化
1.目前公司集群采用的规模越来越大,很多长作业出现了pending的现象。
优化方法:
- 调整参数yarn.resourcemanager.nodemanagers.heartbeat-interval-ms ,减小NM和RM之间的心跳周期,通过减少心跳周期,从而增加FairScheduler调度器调度到长作业的机会。
原因
1.究其原因,https://issues.apache.org/jira/browse/YARN-7859,这个前同事提的已经说的很清楚了,目前集群中存在很多小作业,造成了长作业pending的问题。
彻底解决方法
只能等社区针对FairScheduler进行全局调度的开发,只有全局调度才能彻底解决这个问题,自己也做些调研。