HDFS开启HA后，集群的部分组件异常记录

最新推荐文章于 2023-01-30 17:59:02 发布

再难也要坚持

最新推荐文章于 2023-01-30 17:59:02 发布

阅读量1k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/qq_36933797/article/details/106193716

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

为了使集群能够更加稳健，我在运行了大约半年后的CDH上启用了HDFS高可用性，目的就是为了防止集群中namenode机器宕机后集群还能靠备用节点进制故障转移。我这一操作好了，原本没问题的集群一下子出现了好多问题。

是由下面这个事件暴露出来的:

我们在集群内安装了kylin进行多维数据分析，在我启用HA后，kylin在build的时候就会报一些奇怪的错误，起初还不怎么影响使用，直到后来被迫重启了下集群，发现HBase大量的region挂掉了，都处于offline状态，于是去每个节点查看regionserver的日志，发现使regionserver识别不到hdfs上的一些文件了。未开启HA的时候，hdfs上文件的路径这样表示hdfs://node4:8020/xxx，开启HA后就发生了变化hdfs://nameservice1/xxx，但是由于一些内部原因，我猜测某些组件的元数据依然存储的是前者，故HA后集群会异常。下面从kylin build的错误日志开始排查。

上面只是猜测，接着咱再去找证据。
在这里插入图片描述
如上图，在对kylin的cube进行重新build的时候，执行到14步骤的时候，需要进行一个叫Hive Cleanup的操作，这个操作失败了导致kylin任务也失败了。纳闷，于是又去找hive的麻烦，的确找到了。

Hive元数据的问题，在Hive数据库中有两张表：

DBS ： Hive数据仓库的总路径
在这里插入图片描述
SDS ： Hive每张表对应的路径

先把路径都改成HA的路径，然后重新执行kylin build。

update DBS set DB_LOCATION_URI=REPLACE (DB_LOCATION_URI,'node4:8020','nameservice1');
update SDS set LOCATION=REPLACE (LOCATION,'node4:8020','nameservice1')

依然报错，重启HDFS集群再次尝试，希望成功。
在这里插入图片描述
kylin build正常了。

很遗憾，但是hbase还有些许异常。每次重启完集群，如果active的节点不是node4的话，hbase就会有大量的region无法正常连接到regionserver，需要手动故障转移到node4上。原因未知，静待解决。

去regionserver下查看日志：

下午3点37:42.789分	INFO	RetryInvocationHandler	
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby. Visit https://s.apache.org/sbnn-error
	at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.checkOperation(StandbyState.java:88)
	at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.checkOperation(NameNode.java:1962)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkOperation(FSNamesystem.java:1421)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getListing(FSNamesystem.java:3729)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getListing(NameNodeRpcServer.java:1138)
	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getListing(ClientNamenodeProtocolServerSideTranslatorPB.java:708)
	at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:991)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:869)
	at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:815)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2675)
, while invoking ClientNamenodeProtocolTranslatorPB.getListing over node4/10.20.190.9:8020 after 1 failover attempts. Trying to failover after sleeping for 717ms.

故我猜想，这可能是HBase元数据与Hive元数据同样的问题，需要将hdfs://node4:8020/xxx形式修改成hdfs://nameservice1/xxx形式。