如果master异常退出,将导致
1、无法向spark集群提交任务
2、老任务即使运行结束,计算所占用的资源将无法释放,因为回收资源的指令是master发出的
解决方案:
思路:借鉴hadoop的SencondaryNameNode,设立备用master,当处于服务的master异常退出后,备用的master将替换之
技术:使用ZooKeeper的ElectLeader功能
配置:修改 conf/spark-env.sh。在conf/spark-env.sh中,为SPARK_DAEMON_JAVA_OPTS添加如下配置项:
spark.deploy.recoveryMode # 设置为ZooKeeper表示支持备机方案,默认值为:NONE
spark.deploy.zookeeper.url # ZoooKeeper集群的URL地址(如:192.168.1.10:2181,192.168.1.11:2181)
spark.deploy.zookddper.dir # ZooKeeper中存储recovery state的目录
实例:
SPARK_DAEMON_JAVA_OPTS="$SPARK_DAEMON_JAVA_OPTS -Dspark.deploy.recoveryMode=ZOOKEEPER"
运行:
运行spark程序的时候,指定多个master地址,用逗号分开:
MASTER=spark://192.168.1.100:7077,spark://192.168.1.101:7077 bin/spark-shell