实时数仓、基于Flink1.11的SQL构建实时数仓 之搭建flink集群
目录
实时数仓、基于Flink1.11的SQL构建实时数仓 之搭建flink集群
一. 环境准备
jdk1.8
hadoop环境
zookeeper环境
集群规划
192.168.137.123 s1
192.168.137.124 s2
192.168.137.125 s3
详见:实时数仓、基于Flink1.11的SQL构建实时数仓 环境说明
二. 安装配置
1.下载安装包
官网地址:https://flink.apache.org/zh/downloads.html
下载版本:flink-1.11.2-bin-scala_2.11.tgz
下载hdfs插件包 flink-shaded-hadoop-2-uber-2.8.3-9.0.jar
2.上传到服务s1 并配置
上传目录:/opt/hadoop
解压:tar -zxf flink-1.11.2-bin-scala_2.11.tgz
2.1 修改配置文件 flink-conf.yaml
配置文件目录:/opt/hadoop/flink-1.11.2/conf
参考官网修改关键参数
[root@s1 conf]# cat flink-conf.yaml
jobmanager.rpc.address: s1
# The RPC port where the JobManager is reachable.
jobmanager.rpc.port: 6123
taskmanager.memory.process.size: 1728m
#Slots 集群单节点的并行度,默认是1 根据自己机器的情况调整。
taskmanager.numberOfTaskSlots: 20
high-availability: zookeeper
high-availability.storageDir: hdfs:///flink/ha/
high-availability.zookeeper.quorum: s1:2181,s2:2181,s3:2181
state.checkpoints.dir: hdfs:///flink/flink-checkpoints
state.savepoints.dir: hdfs:///flink/flink-savepoints
jobmanager.execution.failover-strategy: region
yarn.application-attempts: 10
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /default_ns
#错误重试 防止flink任务因为源数据有误造成任务出错后就退出了
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 3
restart-strategy.fixed-delay.delay: 10 s
2.2 修改配置文件masters
配置master节点
[root@s1 conf]# cat masters
s1:8081
s2:8081
2.3 修改配置文件workers
配置TaskManager节点
[root@s1 conf]# cat workers
s1
s2
s3
2.4 配置flink环境变量
在 /etc/profile中添加如下:
export FLINK_HOME=/opt/hadoop/flink-1.11.2
export PATH=$PATH:$FLINK_HOME/bin
3.拷贝 flink-shaded-hadoop-2-uber-2.8.3-9.0.jar
将jar包 flink-shaded-hadoop-2-uber-2.8.3-9.0.jar 拷贝到flink 的lib目录下
4. 分发到 s2 s3 两个节点
scp -r /opt/hadoop/flink-1.11.2 root@s2:/opt/hadoop/
scp -r /opt/hadoop/flink-1.11.2 root@s3:/opt/hadoop/
三. 启动集群
在s1 或 s2 执行:start-cluster.sh
停止集群:stop-cluster.sh