JobManager高可用
概览
JobManager协调每个Flink部署。 它负责调度和资源管理。默认情况下,每个Flink集群只有一个JobManager实例。 这很容易出现单点故障(SPOF):如果JobManager崩溃,则无法提交任何新程序,并且正在运行的程序也会失败。
使用JobManager高可用性,您可以从JobManager故障中恢复,从而消除SPOF。 您可以为独立群集和YARN群集配置高可用性。在链接: Flink Wiki中的JobManager高可用性中查看更多HA实现细节。
独立群集高可用性
独立集群的JobManager高可用性的总体思想是,随时可以有一个lead的JobManager,并有多个备用JobManager在leader失败的情况下接管。 这样可以确保没有单点故障,并且只要待机JobManager处于leader地位,程序就可以正常运行。 备用JobManager实例和主JobManager实例之间没有明显区别。 每个JobManager都可以充当主角色或备用角色。
例如,请考虑以下三个JobManager实例的设置: