备份环境集群本来就不太稳定,就把hbase和yarn分开了.
hbase 需要跑任务,其中一个regionserver启动正常,过段几分钟就会挂掉
日志只有以下信息
这台机器上面有regionserver和master, master就运行的好好的.
遂登录到机器上使用zk客户端连接,发下也没用问题.
实际是启动起来了,但是过一会儿才挂掉的,感觉和内存有关,将该节点内存大小从31G调整为25g,再次启动.
ok
________________手动分割线__________________________
上面是昨天写的内容,今天来一看,hbase有2个节点又挂掉了.
还是出了zookeeper超时就没别的信息了. 关键是我的超时时间设置的是90s啊,不能再加了
去看看hbase里还有那些timeout的设置吧,
不看不要紧,
随即看一下zookeeper的超时时间,
最大超时时间是60s,比regionServer的超时时间短,有可能是zk把连接关闭掉了.
本想把zk时间也调成90s,可是修改zk还需要重启整个集群,就先减少了hbase的超时时间改为60s先试下
后续继续监控,有问题上来再更新