Spark集群HA无法正常启动的问题,master节点正常情况的状态为ALIVE与STANDBY,使用HA后通过zookeeper集群来确定master的ALIVE与STANDBY。
今天,出现master节点一直处于RECOVERING,处理恢复状态,却不能正常启动。
根据以往hadoop集群的经验,应该是zk管理master节点的问题
解决方案为
进行zk的客户端
./zkCli.sh
查看目录
ls /
删除spark在zk中的目录
rmr /spark
对于非常正常挂掉的任务,需要手工在zk删除
查看任务
ls /spark/master_status
删除失效任务即可
rmr /spark/master_status/app_app-20160219104450-0021
重新启动spark集群即可。