一.onYarn模式
把资源管理器交给yarn模式进行管理
1.两种运行模式
1)session-cluster模式
session:会话,开辟一块新的公共的空间
先启动集群,直接向yarn申请空间,资源(session)保持不变,这个集群会常驻在yarn的集群中,不需要时进行手动停止,job任务可以向这个session提交,所有任务共享这个session,如果资源用完,需要等待之间的任务执行完毕释放资源才可以使用。
例:有100个工人,装修公司有5家,a公司有30人,b公司有10人等,a公司不同任务分配一定数量的工作人员,如果a公司人员分配完后,又新来一个job任务,这个任务只能等待之前的任务结束释放人员后,才能使用。
适合场景:规模小,数据量不大,执行时间短的小任务
2)per-job-cluster模式
启动服务不会默认开启任何集群,提交job任务的时候才分配资源,每个job任务都会对应一个小集群,单独申请,与其它job任务无关,job任务执行完毕后自动释放资源。(动态分配)
例:100人去打乒乓球,球只有10个,球不够就增加球,球多了就释放球
适合场景:规模大,数据量较大,执行时间较长的任务
二.flink的jar包问题
flink的jar下载路径:Apache Flink: Downloadshttps://flink.apache.org/downloads.html#apache-flink-1144
flink的onYarn模式需要用到hadoop,所以需要添加hadoop的支持