HDFS开启HA后,集群的部分组件异常记录

为了使集群能够更加稳健,我在运行了大约半年后的CDH上启用了HDFS高可用性,目的就是为了防止集群中namenode机器宕机后集群还能靠备用节点进制故障转移。我这一操作好了,原本没问题的集群一下子出现了好多问题。

是由下面这个事件暴露出来的:

我们在集群内安装了kylin进行多维数据分析,在我启用HA后,kylin在build的时候就会报一些奇怪的错误,起初还不怎么影响使用,直到后来被迫重启了下集群,发现HBase大量的region挂掉了,都处于offline状态,于是去每个节点查看regionserver的日志,发现使regionserver识别不到hdfs上的一些文件了。未开启HA的时候,hdfs上文件的路径这样表示hdfs://node4:8020/xxx,开启HA后就发生了变化hdfs://nameservice1/xxx,但是由于一些内部原因,我猜测某些组件的元数据依然存储的是前者,故HA后集群会异常。下面从kylin build的错误日志开始排查。

上面只是猜测,接着咱再去找证据。
在这里插入图片描述
如上图,在对kylin的cube进行重新build的时候,执行到14步骤的时候,需要进行一个叫Hive Cleanup的操作,这个操作失败了导致kylin任务也失败了。纳闷,于是又去找hive的麻烦,的确找到了。

Hive元数据的问题,在Hive数据库中有两张表:

DBS : Hive数据仓库的总路径
在这里插入图片描述
SDS : Hive每张表对应的路径
在这里插入图片描述

先把路径都改成HA的路径,然后重新执行kylin build。

update DBS set DB_LOCATION_URI=REPLACE (DB_LOCATION_URI,'node4:8020','nameservice1');
update SDS set LOCATION=REPLACE (LOCATION,'node4:8020','nameservice1')

依然报错,重启HDFS集群再次尝试,希望成功。
在这里插入图片描述
kylin build正常了。

很遗憾,但是hbase还有些许异常。每次重启完集群,如果active的节点不是node4的话,hbase就会有大量的region无法正常连接到regionserver,需要手动故障转移到node4上。原因未知,静待解决。

去regionserver下查看日志:

下午3点37:42.789分	INFO	RetryInvocationHandler	
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby. Visit https://s.apache.org/sbnn-error
	at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.checkOperation(StandbyState.java:88)
	at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.checkOperation(NameNode.java:1962)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkOperation(FSNamesystem.java:1421)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getListing(FSNamesystem.java:3729)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getListing(NameNodeRpcServer.java:1138)
	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getListing(ClientNamenodeProtocolServerSideTranslatorPB.java:708)
	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:991)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:869)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:815)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2675)
, while invoking ClientNamenodeProtocolTranslatorPB.getListing over node4/10.20.190.9:8020 after 1 failover attempts. Trying to failover after sleeping for 717ms.

故我猜想,这可能是HBase元数据与Hive元数据同样的问题,需要将hdfs://node4:8020/xxx形式修改成hdfs://nameservice1/xxx形式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

再难也要坚持

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值