Driver HA
这里指的是 Standalone或者Mesos框架的 cluster模式的配置
-
SparkStreaming是7*24小时(指不间断)运行,Driver只是一个简单的进程,有可能挂掉,所以实现Driver的HA就有必要
-
如果使用的是Client模式就无法实现Driver HA ,我们这里针对的是cluster模式。
-
Yarn平台的cluster模式提交任务,AM(AplicationMaster)相当于Driver,如果挂掉会自动启动AM。无需我们手动配置.
Spark standalone和Mesos资源调度的情况下。实现Driver的高可用有两个步骤:
第一:提交任务层面,在提交任务的时候加上选项 - -supervise,当Driver挂掉的时候会自动重启Driver。
第二:代码层面,使用JavaStreamingContext.getOrCreate(checkpoint路径,JavaStreamingContextFactory)
- Driver中元数据包括:
- 创建应用程序的配置信息。
- DStream的操作逻辑。
- job中没有完成的批次数据,也就是job的执行进度。