容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性,在接下来的部分中我们会讨论spark如应对各种模块异常,参考的版本是spark1.5.1
spark模块信息
master异常退出
spark中通过参数spark.deploy.recoveryMode来设置master的部署模型,主要有如下几种类型;
- NONE:只有一个master
- ZOOKEEPER:借助zookeeper实现具有自动切换的master