Flink13基础-DataStream API（获取环境与执行模式）

最新推荐文章于 2023-03-29 19:06:17 发布

鱼游龙渊

最新推荐文章于 2023-03-29 19:06:17 发布

阅读量237

点赞数

文章标签： flink Powered by 金山文档

本文链接：https://blog.csdn.net/qq_33434458/article/details/128627626

版权

一、执行环境（Execution Environment）

创建maven工程，引入flink依赖

 <properties>
        <flink.version>1.13.0</flink.version>
        <java.version>1.8</java.version>
        <scala.binary.version>2.12</scala.binary.version>
        <slf4j.version>1.7.30</slf4j.version>
 </properties>

<dependencies>
        <!-- 引入 Flink 相关依赖-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-elasticsearch7_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner-blink_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-scala_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-jdbc_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.47</version>
        </dependency>

        <!-- 引入日志管理相关依赖-->
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-api</artifactId>
            <version>${slf4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>${slf4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-to-slf4j</artifactId>
            <version>2.14.0</version>
        </dependency>
    </dependencies>

- getExecutionEnvironment 最简单方式

// 创建执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);

这个方法会根据当前运行的方式，自行决定该返回什么样的运行环境。

- createLocalEnvironment 创建本地执行环境

StreamExecutionEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment();

这个方法返回一个本地执行环境。可以在调用时传入一个参数，指定默认的并行度；

如果不传入，则默认并行度就是本地的CPU 核心数

- createRemoteEnvironment 创建远程执行环境

StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment.createRemoteEnvironment( "host", // JobManager 主机名 
        1234, // JobManager 进程端口号
        "path/to/jarFile.jar" // 提交给 JobManager 的 JAR 包
);

这个方法返回集群执行环境。需要在调用时指定 JobManager 的主机名和端口号，并指定要在集群中运行的 Jar 包

意思是将你本地的代码打的jar包,远程提交到已经存在的flink集群上.注意此程序再idea运行的时候,idea上不会有任何输出的.在这种模式下idea就是相当于一个传输所需jar文件的客户端,程序一旦执行之后,就和idea无关了.

二、执行模式(Execution Mode)

Flink12版本之前获取批处理的执行环境与流处理类似，是调用类 ExecutionEnvironment 的静态方法，返回它的对象：

// 批处理环境
ExecutionEnvironment batchEnv = ExecutionEnvironment.getExecutionEnvironment();
// 流处理环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

而从 1.12.0 版本起，Flink 实现了 API 上的流批统一。DataStream API 新增了一个重要特性：可以支持不同的“执行模式”（execution mode），通过简单的设置就可以让一段 Flink 程序在流处理和批处理之间切换。这样一来，DataSet API 也就没有存在的必要。

三种模式：

流执行模式（STREAMING）默认使用

批执行模式（BATCH）类似mr

自动模式（AUTOMATIC）根据输入数据源是否有界，来自动选择执行模式

1. BATCH 模式的配置方法

（1）通过命令行配置

bin/flink run -Dexecution.runtime-mode=BATCH ...

（2）通过代码配置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setRuntimeMode(RuntimeExecutionMode.BATCH);

鱼游龙渊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink13基础-DataStream API（获取环境与执行模式）

flink13基础获取环境与执行模式
复制链接

扫一扫

Flink13基础-DataStream API（获取环境与执行模式）

一、执行环境（Execution Environment）

getExecutionEnvironment 最简单方式

createLocalEnvironment 创建本地执行环境

createRemoteEnvironment 创建远程执行环境

二、执行模式(Execution Mode)

1. BATCH 模式的配置方法

“相关推荐”对你有帮助么？