1. 背景
默认情况下一个flink job只启动一个jobManager,因此存在单点故障问题,所以生产环境中需要HA。
因为生产环境中基于yarn集群的flink应用场景更多,本文只介绍基于yarn的flink高可用配置。
2. 配置
配置yarn集群级别AM重启上限
# vim yarn-site.xml
<property>
<name>yarn.resourcemanager.am.max-attempts</name>
<value>100</value>
</property>
配置flink HA相关
# vim /home/admin/flink-1.9.1/conf/flink-conf.yaml
high-availability: zookeeper
high-availability.storageDir: hdfs:///flink/ha/
high-availability.zookeeper.quorum: uhadoop-op3raf-master1,uhadoop-op3raf-master2,uhadoop-op3raf-core1
# 单个flink job的重试次数
yarn.application-attempts: 10
3. 启动
方式一
启动一个基于yarn的flink集群
/home/admin/flink-1.9.1/bin/yarn-session.sh -n 10 -jm 10g -tm 10g -s 10 2>&1 &