一. 快速启动
在YARN上启动一个长时间运行的Flink集群
启动一个带有4个TaskManager的YARN会话(每一个TaskManager分配4GB的堆内存):
# 从Flink下载页下载hadoop2下载包。
# 下载地址为:http://flink.apache.org/downloads.html
curl -O <flink_hadoop2_download_url>
tar xvzf flink-1.6.1-bin-hadoop2.tgz
cd flink-1.6.1/
./bin/yarn-session.sh -n 4 -jm 1024m -tm 4096m
特别地 -s参数表示每个Task Manager的slot数量。一般我们推荐slot的数量为机器的处理器个数(核数)。
当YARN会话启动之后,就可以用./bin/flink工具来向集群提交任务了。
在YARN上运行Flink任务
curl -O <flink_hadoop2_download_url>
tar xvzf flink-1.6.1-bin-hadoop2.tgz
cd flink-1.6.1/
./bin/flink run -m yarn-cluster -yn 4 -yjm 1024m -ytm 4096m ./examples/batch/WordCount.jar
二. Flink YARN会话
Apache Hadoop YARN是一个集群资源管理框架。它允许在集群上运行各种分布式应用程序。Flink在YARN上运行,与其他应用程序类似。如果已经设置了YARN,则用户无需设置或安装任何内容。
要求:
- 至少是Apache Hadoop 2.2
- HDFS (Hadoop Distributed File System) (或者被Hadoop支持的其他的分布式文件系统)
启动Flink会话
按照以下说明学习如何在YARN集群内启动Flink会话。
会话将启动所有需要的Flink服务(JobManager和TaskManager),以便您可以向集群提交程序。注意,每个会话可以运行多个程序。
下载Flink
下载Flink安装包,Hadoop >= 2。该包包含了我们要求的所有文件。
提取包:
tar xvzf flink-1.6.1-bin-hadoop2.tgz
cd flink-1.6.1/
启动会话
利用下面命令来启动会话:
./