jobManager协调每个flink任务部署。它负责任务调度和资源管理。
l默认情况下,每个flink集群只有一个JobManager,这将导致一个单点故障(SPOF):如果JobManager挂了,则不能提交新的任务,并且运行中的程序也会失败。
l使用JobManager HA,集群可以从JobManager故障中恢复,从而避免SPOF(单点故障) 。 用户可以在standalone或 YARN集群 模式下,配置集群高可用
更多flink HA相关可以参考wiki百科
Standalone Cluster High Availability
对于独立集群,JobManager高可用性的一般概念是,在任何时候都有一个作为leader的JobManager,并且在leader失败时有多个standby 的JobManager来成为leader。这就保证了没有单一的故障点,一旦一个standby 的JobMananger起到领导作用,程序就可以取得进展。standby和leader的JobManager之间没有任何区别。每个JobMananger都可以充当standby或者leader
官方有一张图
YARN Cluster High Availability
当运行一个高度可用的yarn集群时,我们不运行多个jobmanager(applicationmaster)实例,而只运行一个实例,在失败时由yarn重新启动。具体的性能取决于您使用的yarn的版本号。