FlinkX各种模式的启动脚本和解释

最新推荐文章于 2024-08-14 18:39:53 发布

secretWHD

最新推荐文章于 2024-08-14 18:39:53 发布

阅读量849

点赞数 1

分类专栏： Flinkx 文章标签： hadoop flink hdfs 数据仓库

本文链接：https://blog.csdn.net/secretWHD/article/details/120007529

版权

Flinkx 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

官方启动参数说明

名称	说明	可选值	是否必填	默认值
mode	执行模式，也就是flink集群的工作模式	1.local: 本地模式 2.standalone: 独立部署模式的flink集群 3.yarn: yarn模式的flink集群，需要提前在yarn上启动一个flink session，使用默认名称"Flink session cluster" 4.yarnPer: yarn模式的flink集群，单独为当前任务启动一个flink session，使用默认名称"Flink per-job cluster"	否	local
job	数据同步任务描述文件的存放路径；该描述文件中使用json字符串存放任务信息	无	是	无
jobid	指定flink任务名称	无	否	Flink Job
pluginRoot	插件根目录地址，也就是打包后产生的pluginRoot目录。	无	否	$FLINKX_HOME/syncplugins	在linux上按该格式配置好环境变量即可，启动脚本就不必在配置这些参数
flinkconf	flink配置文件所在的目录	$FLINK_HOME/conf	否	$FLINK_HOME/conf
flinkLibJar	flink lib所在的目录（单机模式下不需要），如/opt/dtstack/flink-1.10.1/lib	$FLINK_HOME/lib	否	$FLINK_HOME/lib
yarnconf	Hadoop配置文件（包括hdfs和yarn）所在的目录	$HADOOP_HOME/etc/hadoop	否	$HADOOP_HOME/etc/hadoop
queue	yarn队列，如default	无	否	default
pluginLoadMode	yarn session模式插件加载方式	1.classpath：提交任务时不上传插件包，需要在yarn-node节点pluginRoot目录下部署插件包，但任务启动速度较快 2.shipfile：提交任务时上传pluginRoot目录下部署插件包的插件包，yarn-node节点不需要部署插件包，任务启动速度取决于插件包的大小及网络环境	否	shipfile
confProp	flink额外配置，如checkpoint、内存	flink.checkpoint.interval：快照生产频率(毫秒) flink.checkpoint.timeout：快照超时时间(毫秒) jobmanager.memory.mb：perJob模式下jobmanager内存设置 taskmanager.memory.mb：perJob模式下taskmanager内存设置 taskmanager.slots：perJob模式下jobmanager slots个数设置	否	无
s	checkpoint快照路径，设置后从该快照恢复任务	-s /user/flink/checkpoints/eb64f097c9504b1f1cfecb1420a71903/chk-2	否	无
p	自定义入参，用于替换脚本中的占位符，如脚本中存在占位符pt1,{pt2}，则该参数可配置为pt1=20200101,pt2=20200102	"path": "hdfs://xxx/user/hive/warehouse/xxx.db/xx/d=${pt1}"	否	无
appId	yarn session模式下，提交到指定的的flink session的application Id		否	无
krb5conf	提交到开启kerberos的Hadoop集群的krb5文件路径		否	无
keytab	提交到开启kerberos的Hadoop集群的keytab文件路径		否	无
principal	kerberos认证的principal		否	无

Local模式

在本地启动执行Flink任务，不需要下载安装Flink。当临时需要将某份数据源的数据做同步任务时，无需配置环境，只需编写任务脚本就可实现。该模式一次只能运行一个任务，且任务执行中无法查看指标等信息，因此适合小数据量低频率的任务

/usr/local/src/flinkx-1.10/bin/flinkx \ 
 -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json

Standalone模式

需要事先启动Flink session，该模式可以同时运行多个同步任务，也方便观察任务运行状态和日志信息，但由于taskmanager持续运行的缘故，不适合长时间多任务持续提交任务

1. 每个flink服务的配置修改为parent-first: classloader.resolve-order: parent-first

2. 将flinkx的插件包syncplugins拷贝到每个$FLINK_HOME/lib下

3. 进入flink/bin目录 ./start-cluster.sh

4. 启动任务：pluginRoot指定syncplugins

/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode standalone \ 
    -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ 
    -confProp "{\"jobmanager.memory.mb\":200,\"taskmanager.memory.mb\":200}"

Yarn 模式

借助yarn来管理flink session，并通过队列来隔离不用的flink session，适合高频率的任务提交，目前生产环境中使用

再谈双亲委派模型与Flink的类加载策略

a. 将准备的如下的jar包上传到flink lib目录下： flink-shaded-hadoop-2-uber-2.4.1-9.0.jar

b. 启动 flink session 配置好flink的环境变量

1). nohup yarn-session.sh -qu default -n 1 -s 2 -jm 1024 -tm 1024 & 以这种方式运行需要在每个服务器节点相同路径下部署flinkx插件包(只需要syncplugins)，且flink-conf.yaml中classloader.resolve-order = child-first，后续更新插件包时所有节点都需要更新，这种方式启动session的速度较快

2). nohup yarn-session.sh -qu root.default -jm 1024 -tm 1024 -ship $FLINKX_HOME/syncplugins/ & 以这种方式运行只需要在提交任务的节点部署flinkx插件包，且flink-conf.yaml中classloader.resolve-order = parent-first，但这种方式session启动速度较慢

/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode yarn \ 
    -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ 
    -pluginLoadMode classpath \ 
    -queue root.default

Yarn Perjob模式

该模式为每个任务单独申请一个session，并且可以自由配置任务所需要的资源，适合资源消耗大以及如实时采集、间隔轮询等需要长时间运行的任务模式的选择标准，比如某个CPU

# 配置好Flink，FlinkX，Hadoop环境变量后，这三段代码实际作用一样
/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode yarnPer \ 
    -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ 
    -queue root.default 

/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode yarnPer \ 
    -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ 
    -pluginRoot $FLINKX_HOME/syncplugins \ 
    -flinkconf $FLINK_HOME/conf \ 
    -flinkLibJar $FLINK_HOME/lib \ 
    -yarnconf $HADOOP_HOME/etc/hadoop \ 
    -queue root.default 

/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode yarnPer \ 
    -job /usr/local/src/flinkx-1.10/docs/example/stream_stream.json \ 
    -pluginRoot /usr/local/src/flinkx-1.10/syncplugins \ 
    -flinkconf /opt/cloudera/parcels/FLINK-1.10.1-BIN-SCALA_2.12/lib/flink/conf \ 
    -flinkLibJar /opt/cloudera/parcels/FLINK-1.10.1-BIN-SCALA_2.12/lib/flink/lib \ 
    -yarnconf /opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop \ 
    -queue root.default

断点续传恢复

/usr/local/src/flinkx-1.10/bin/flinkx \ 
    -mode yarnPer \ 
    -job /usr/local/src/flinkx-1.10/job/mysql2hiverestore.json \ 
    -confProp "{\"flink.checkpoint.interval\":30000}" \ 
    -queue root.default \ 
    -s /user/flink/cluster_yarn/checkpoints/eb64f097c9504b1f1cfecb1420a71903/chk-2

提交任务添加变量

bin/flinkx \ 
    -mode local \ 
    -job job_flinkx.json \ 
    -p "date=20191122" 

job_flinkx.json: 
    "name": "hdfsreader", 
        "parameter": { 
            "path": "hdfs://xxx/user/hive/warehouse/xxx.db/xx/d=${date}", 
            "hadoopConfig": { 
                "dfs.nameservices": "xxx", 
                "dfs.ha.namenodes.xxx": "nn1,nn2", 
                "dfs.namenode.rpc-address.xxx.nn1": "xxx-bd-nn01.self.internal:8020",
                "dfs.namenode.rpc-address.xxx.nn2": "xxx-bd-nn02.self.internal:8020",
                "dfs.client.failover.proxy.provider.xxx":"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider" 
            },

Flinkx启动脚本

/usr/local/src/flinkx-1.10/bin/flinkx

set -e

export FLINKX_HOME="$(cd "`dirname "$0"`"/..; pwd)"

# Find the java binary
if [ -n "${JAVA_HOME}" ]; then
  JAVA_RUN="${JAVA_HOME}/bin/java"
else
  if [ `command -v java` ]; then
    JAVA_RUN="java"
  else
    echo "JAVA_HOME is not set" >&2
    exit 1
  fi
fi

JAR_DIR=$FLINKX_HOME/lib/*
CLASS_NAME=com.dtstack.flinkx.launcher.Launcher

echo "flinkx starting ..."
nohup $JAVA_RUN -cp $JAR_DIR $CLASS_NAME $@ &
tail -f nohup.out

1.nohup
用途：不挂断地运行命令。
语法：nohup Command [ Arg … ] [　& ]
　　无论是否将 nohup 命令的输出重定向到终端，输出都将附加到当前目录的 nohup.out 文件中。
　　如果当前目录的 nohup.out 文件不可写，输出重定向到 $HOME/nohup.out 文件中。
　　如果没有文件能创建或打开以用于追加，那么 Command 参数指定的命令不可调用。
退出状态：该命令返回下列出口值： 　　
　　126 可以查找但不能调用 Command 参数指定的命令。 　　
　　127 nohup 命令发生错误或不能查找由 Command 参数指定的命令。 　　
　　否则，nohup 命令的退出状态是 Command 参数指定命令的退出状态。
2.&
用途：在后台运行
一般两个一起用
nohup command &