flink安装部署其实挺简单,主要是有俩种方式,一种是Standalone模式,一种Flink on Yarn模式
standalone模式比较简单,Flink on yarn模式重在理解
安装和部署
(1)方式一:Standalone
解压:tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C ~/training/
核心配置文件:conf/flink-conf.yaml
启动:bin/start-cluster.sh
Web Console:端口8081
伪分布的环境:bigdata111
jobmanager.rpc.address: bigdata111
全分布的环境:bigdata112、bigdata113、bigdata114
在bigdata112上搭建
conf/flink-conf.yaml
jobmanager.rpc.address: bigdata112
slaves:指定从节点的地址
bigdata113
bigdata114
复制到113和114上
scp -r flink-1.7.2/ root@bigdata113:/root/training
scp -r flink-1.7.2/ root@bigdata114:/root/training
(2)以Standalone的方式介绍Flink HA:ZooKeeper
flink-conf.yaml
high-availability zookeeper
high-availability.zookeeper.quorum ZK的地址和端口,逗号分隔
high-availability.zookeeper.path.root /flink
high-availability.cluster-id /cluster_one
high-availability.storageDir hdfs://bigdata112:9000/flink/recovery
用于存储Flink的元信息
masters
bigdata112:8081
bigdata113:8081
zoo.cfg
server.1=bigdata112:2888:3888
server.2=bigdata113:2888:3888
server.3=bigdata114:2888:3888
(3)方式二:Flink on Yarn
前提:安装好Hadoop
又有两种实现的方式
(*)内存集中管理的模式
首先在yarn中,初始化一个Flink集群(常驻)
不管以后有多少个Flink的任务,共享这个集群
即使所有任务都退出,这个集群依然常驻
命令:bin/yarn-session.sh -n 2 -jm 1024 -tm 1024 -d
(*)内存Job管理的模式:推荐使用
每次提交Flink任务的时候,新申请一个集群
如果任务执行完成,该集群会被释放
命令:bin/flink run -m yarn-cluster -yn 1 -yjm 1024 -ytm 1024 examples/batch/WordCount.jar