YARN的ResourceManager故障(一)

cdh6.2仍然无法解决zookeeper注册信息过期造成yarn的主备脑裂问题。yarn无法启动、无法手动切换主备等。

解决办法一

我们需要删除yarn在ZK上的 rmstore 信息, 之后重启yarn,就可以了。
但是在删除zk上 rmstore 信息的时候, 遇到了问题, yarn在注册时候的时候自己添加上ACL。所以我们直接删除是不行的。
但我们可以可以重新设置一个ACL(Access Control List),就可以了, 如下:

# 连接zookeeper,如果是客户端需添加 -server ip:port
[bigdata@server2 ~]$ zookeeper-client
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper, hadoop-ha, hbase, rmstore]
[zk: localhost:2181(CONNECTED) 1] rmr /rmstore
Authentication is not valid : /rmstore/ZKRMStateRoot/RMVersionNode

我们可以看一下这个目录的ACL

[zk: localhost:2181(CONNECTED) 2] getAcl /rmstore/ZKRMStateRoot
'world,'anyone
: rwa
'digest,'shining-namenode01.host.com:yelhKlz39YVCV9p4NTModoBq9fw=
: cd

我们重新设置ACL,并删除目录

[zk: localhost:2181(CONNECTED) 3] setAcl /rmstore/ZKRMStateRoot world:anyone:rwcda
cZxid = 0x10000001b
ctime = Mon May 27 14:58:45 CST 2019
mZxid = 0x10000001b
mtime = Mon May 27 14:58:45 CST 2019
pZxid = 0x10016efd3
cversion = 380191
dataVersion = 0
aclVersion = 5
ephemeralOwner = 0x0
dataLength = 0
numChildren = 5
[zk: localhost:2181(CONNECTED) 4] getAcl /rmstore/ZKRMStateRoot                   
'world,'anyone
: cdrwa
[zk: localhost:2181(CONNECTED) 6] rmr /rmstore/ZKRMStateRoot
[zk: localhost:2181(CONNECTED) 7] ls /
[zookeeper, hadoop-ha, hbase, rmstore]
[zk: localhost:2181(CONNECTED) 8] rmr /rmstore
[zk: localhost:2181(CONNECTED) 9] ls /
[zookeeper, hadoop-ha, hbase]

之后重新启动yarn,让yarn重新在zk上注册就可以了。
转载:原文
参照:原文
参照:原文

解决办法二

在hadoop生态中,如果yarn的ResourceManager为HA形式,有时会遇到一个问题,两个ResourceManager的状态都为备用状态,无法正常工作,此时,我们可以简单粗暴的执行以下命令:

yarn resourcemanager -format-state-store(在resourcemanager对应的节点执行)

注:该命令是格式化resourcemanager的,此命令执行后之前由于异常退出的任务记录会丢失,不会执行失败的任务。需要手动去执行失败的任务。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值