hadoop2.2.0 的fairscheduler 遇到的一个问题

最新推荐文章于 2022-07-04 20:41:04 发布

baiyangfu

最新推荐文章于 2022-07-04 20:41:04 发布

阅读量4.8k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/baiyangfu_love/article/details/17007899

版权

在使用Hadoop 2.2.0的FairScheduler时，当多客户端提交任务，发现appattempts未进入eventQueue，导致调度器无法工作。经过分析，确定为内部死锁，且问题在长时间后重现。通过与工程师合作，找出原因：队列中作业请求资源为0时，调度器内部出现block。解决方案包括修改`yarn-site.xml`配置。已提交Apache YARN的issue和patch。

摘要由CSDN通过智能技术生成

在使用hadoop2.2.0 的 fairscheduler的时候，出现了下面的一个问题：

当多个客户端提交任务的时候，发现生成的appatempt 没有进入fairscheduler的 eventQueue，导致fairscheduler没有对该任务进行调度，而当am向scheduler请求这个作业的信息时，出现下面的问题，而且是打了很多这样的log：

2013-11-27 14:27:02,258 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1384743376038_1122_000001
2013-11-27 14:27:02,258 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1384743376038_1121_000001

仔细查找log中的蛛丝马迹，发现没有出现调度器调度的log：

正常作业调度的log记录：

2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.ClientRMService: Application with id 1120 submitted by user root
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: Storing application with id application_1384743376038_1120
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger: USER=root     IP=192.168.24.101       OPERATION=Submit Application Request    TARGET=ClientRMService  RESULT=SUCCESS  APPID=application_1384743376038_1120
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: application_1384743376038_1120 State change from NEW to NEW_SAVING
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.recovery.RMStateStore: Storing info for app: application_1384743376038_1120
2013-11-27 14:25:36,516 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.R