Flink在1.11版本新增了一种部署模式,目前支持三种:Session 模式、Per job 模式、Application 模式,这三种模式主要在集群管理、资源隔离、用户main方法执行位置几个方面有所不同。
本篇会按照下面几个步骤进行介绍:
1 什么是Session模式
2 什么是Per Job模式
3 从任务解析过程到Application的设计初衷
4 什么是Application模式
5 启动过程源码分析
6 总结与参考资料
Session 模式
Flink支持事先创建好一个集群,然后往这个集群上提交任务。所有的任务都在客户端进行编译,编译成JobGraph后,附加上依赖的库,提交到Flink的集群。集群接收到任务后,会再创建对应的JobMaster进行ExecutionGraph的解析,然后申请资源并执行。如果Flink集群申请的TM内部有很多Slot,那么会按照Slot的粒度进行任务分配,这样就可能在一个TM上运行多个任务。
这样设计的好处是,多个任务可以共用一套集群,方便管理监控。但是带来的缺点也很明显,当某一个任务崩溃高挂了对应的TM,上面其他的任务都会受到影响。其他的任务受影响崩溃不说,如果大面积的任务恢复,也可能导致JM的性能压力。
因此Session模式适用于量多、执行任务时间短、对资源不敏感的场景,比如作为在线(即席)查询引擎。
关于Session模式的部署和使用,也可以参考之前的文章:
Per job 模式
为了进行更好的资源隔离,Flink支持为每个任务单独创建一个集群,该模式目前支持Yarn、K8s等。当任务执行完毕,集群会自动关闭并回收资源。这样就保证了更好的资源隔离,单独的任务失败也不会影响其他的任务。另外,这种模式分摊了JM的压力到每个任务,因此这种模式更适合生产环境部署。
观察下图可以发现,