本章我们将通过入门案例,从开发环境准备到程序运行输出,带领大家初步认识 Flink。
目录
- Flink 程序结构
- Flink 初步入门案例
Flink 程序结构
DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的底层 API 是相同的。
Flink 程序看起来像一个转换 DataStream 的常规程序,每个程序由相同的基本部分组成:
- 获取一个执行环境(Execution Environment)
- 加载/创建初始数据(Source)
- 指定数据相关的转换(Transformation)
- 指定计算结果的存储位置(Sink)
- 触发程序执行
下面我们通过一个完整案例,初步了解 Flink 程序运行结构
本地开发环境准备
-
安装 JDK(本次课程实验案例均采用 Java 开发,需要安装 JDK)
-
安装 Maven
-
安装 IDEA 开发工具
-
打开 IDEA 应用,创建一个 Maven 工程
-
配置 Maven 环境
-
修改 pom.xml 文件,增加 Maven 依赖
在笔者书写阶段,当前 Flink 的最高正式版本为 1.19.0
,本次课程我们后续的实验案例均采用该版本的配置。对应 Maven 依赖配置如下:
注意:后续我们所有的实验案例,均是在此 maven 配置的基础上进行开发的。
<properties>
<flink.version>1.19.0</flink.version>
</properties>
<dependencies>
<!-- idea 本地开发,客户端运行依赖的 jar 包,生产集群上不需要 -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-clients</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- 本地开发,用来访问 WebUI 界面 -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-runtime-web</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- DataStreaming 依赖的 jar 包-->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- flink table&&SQL依赖的 jar 包 -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-runtime</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner-loader</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-java</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-java-bridge</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- 引入 Lombok 包,方便后续使用注解形式来简化java代码 -->
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<version>1.18.10</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>8</source>
<target>8</target>
<encoding>UTF-8</encoding>
</configuration>
</plugin>
</plugins>
</build>
接下来我们就可以创建我们的第一个 Flink 任务了。
基于需求代码输出
需求:统计 10 秒窗口内,来自 Web 套接字的单词数。
-
创建 WindowWordCount.java,对应文件内容如下:
import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows; import org.apache.flink.util.Collector; import java.time.Duration; public class WindowWordCount { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<Tuple2<String, Integer>> dataStream = env .socketTextStream("localhost", 9999) .flatMap(new Splitter()) .keyBy(value -> value.f0) .window(TumblingProcessingTimeWindows.of(Duration.ofSeconds(10))) .sum(1); dataStream.print(); env.execute("Window WordCount"); } public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> { @Override public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception { for (String word: sentence.split(" ")) { out.collect(new Tuple2<String, Integer>(word, 1)); } } } }
-
启动控制台,在控制台终端输入命令:
nc -lp 9999
。
-
在 IDEA 中运行 WindowWordCount.java 程序,启动之后,在控制台终端中,输入一些单词,然后按回车键即可传入数据源,这些将作为单词统计程序的输入。
如果想查看大于 1 的计数,在 10 秒内重复输入相同的单词即可(如果无法快速输入,则可以将窗口大小从 10 秒增加)。
-
在控制台输入完数据之后,查看程序运行输出的结果信息:
章节总结
Flink 中的 DataStream 程序是对数据流进行转换的常规程序。数据流的起始 Source 是从各种源(例如消息队列、套接字流、文件)创建的。在 Transformation 模块定义了对 DataStream 数据集的各种转换操作,例如过滤、更新状态、定义窗口、聚合等操作。最后结果通过 Sink 返回,例如可以将数据写入文件或标准输出。