CDH7.1.7集成flink1.14.5
- 配置信息
1.1 软件信息
软件 | 版本 |
CDH | 7.1.7 |
Flink | 1.14.5 |
- 部署安装
2.1 JDK版本
(1)flink需要支持的jdk版本较高,本部署环境flink使用的jdk是jdk1.8.0_232版本
2.2 解压flink软件包
(1)解压:
tar -zxvf flink-1.14.5-bin-scala_2.11.tgz
2.3 修改配置文件
- 配置文件:
vim /data/flink-1.14.5/conf/flink-conf.yaml
# 配置主节点主机名
jobmanager.rpc.address: hostname
jobmanager.rpc.port: 6123
#根据实际情况进行修改操作
jobmanager.heap.size: 1024m
taskmanager.heap.size: 1024m
# 配置决定每台机器能并行运行多少个slot, 机器上一个核可以运行一个slot
taskmanager.numberOfTaskSlots: 1
# zookeeper配置
high-availability.zookeeper.quorum: node01:2181,node02:2181,node03:2181
# 整个集群最大可以的并行度, slave节点数 * 节点CPU核数
parallelism.default: 1
jobmanager.execution.failover-strategy: region
- 主节点配置
cat/data/flink-1.14.5/conf/masters
hostname:8081
- 从节点配置
cat/data/flink-1.14.5/conf/workers
hostname
配置参考://nightlies.apache.org/flink/flink-docs-release-1.16/docs/deployment/config/
2.4 配置环境变量
export JAVA_HOME=/usr/java/jdk1.8.0_232-cloudera export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export FLINK_HOME=/data/flink-1.14.5 export PATH=$FLINK_HOME/bin:$PATH export HADOOP_HOME=/opt/cloudera/parcels/CDH-7.1.7-1.cdh7.1.7.p1041.29602476 export PATH=$HADOOP_HOME/bin:$PATH export HADOOP_CLASSPATH=`hadoop classpath` |
source /etc/profile |
2.5 kerberos认证
kinit -kt hive.keytab hive
- 启动flink集群
3.1启动flink
- 启动:
cd /data/flink-1.14.5
bin/start-cluster.sh
netstat -apn|grep 8081
上图中出现的“Setting HADOOP_CONF_DIR=/etc/hadoop/conf because no HADOOP_CONF_DIR was set.”原因是环境变量没有配置导致,但是并不影响正常使用
3.2 运行模式 Flink Yarn Session模式
(1)运行:
nohup `bin/yarn-session.sh -n 8 -jm 1024 -tm 1024 -s 4 -nm FlinkOnYarnSession -d` &
各参数介绍
-n:指定TaskManager的数量
-jm:JobManager容器的内存
-tm:每个TaskManager容器的内存
-s:指定TaskManager中slot的数量
-nm:在YARN上为应用程序设置自定义名称
-d:以分离模式运行
注意:运行模式根据任务实际情况进行操作
文档参考:https://www.cnblogs.com/asker009/p/11327533.html
3.3 运行模式 Flink Yarn Application模式
(1)运行
flink run-application -t yarn-application /data/flink-1.14.5/examples/batch/WordCount.jar
- 验证
4.1 页面
http://0.0.0.0:8081/#/overview
4.2 Yarn应用程序查看
注:1.启动
bin/start-cluster.sh
2.停止
bin/stop-cluster.sh
3.当本机jdk版本包较多时,flink中必须指定jdk环境变量