一、Flink运行模式
1、定义
Flink是一个优秀的分布式流式处理框架,它通过将批数据视为有界流、流数据视为无界流的方式统一了批处理和流处理的编程模型。
2、模式
A、有local、standalone、k8s、mesos、yarn等五种模式,最常使用yarn模式。
B、使用yarn模式的理由:
理由一:yarn提供了更好的任务管理和资源调度的解决方案。
理由二:yarn能够自动完成flink组件的容错。
1、jobmanager异常退出,ResourceManager会重新调度jobmanager到其他节点。
2、taskmanager异常退出,jobmanager会重新像resourcemanager申请资源启动taskmanager。
3、yarn模式详解
A、分类:
session模式、Per-job模式。
B、Session模式:
有一个flink集群常驻yarn集群,所有作业共享RM和dispatcher;
不需要每次都申请资源,前一个任务没完成,后一个任务等待;
作业完成,资源不释放。适用于频繁的小作业。
启动步骤:
1、启动hadoop集群--->启动flink集群start-cluster.sh;
2、启动yarn-session集群:yarn-session -n 2 -s 2 -jm 1024 -tm 1024 -d;
3、提交任务:flink run jar包路径
补充:
停止yarn-session方式:yarn application