hadoop2.2.0 的fairscheduler 遇到的一个问题

在使用Hadoop 2.2.0的FairScheduler时,当多客户端提交任务,发现appattempts未进入eventQueue,导致调度器无法工作。经过分析,确定为内部死锁,且问题在长时间后重现。通过与工程师合作,找出原因:队列中作业请求资源为0时,调度器内部出现block。解决方案包括修改`yarn-site.xml`配置。已提交Apache YARN的issue和patch。
摘要由CSDN通过智能技术生成

在使用hadoop2.2.0 的 fairscheduler的时候,出现了下面的一个问题:

当多个客户端提交任务的时候,发现生成的appatempt 没有进入fairscheduler的 eventQueue,导致fairscheduler没有对该任务进行调度,而当am向scheduler请求这个作业的信息时,出现下面的问题,而且是打了很多这样的log:

2013-11-27 14:27:02,258 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1384743376038_1122_000001
2013-11-27 14:27:02,258 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1384743376038_1121_000001

仔细查找log中的蛛丝马迹,发现没有出现调度器调度的log:

正常作业调度的log记录:

2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.ClientRMService: Application with id 1120 submitted by user root
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: Storing application with id application_1384743376038_1120
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger: USER=root     IP=192.168.24.101       OPERATION=Submit Application Request    TARGET=ClientRMService  RESULT=SUCCESS  APPID=application_1384743376038_1120
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: application_1384743376038_1120 State change from NEW to NEW_SAVING
2013-11-27 14:25:36,515 INFO org.apache.hadoop.yarn.server.resourcemanager.recovery.RMStateStore: Storing info for app: application_1384743376038_1120
2013-11-27 14:25:36,516 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值