(二)Flink 程序运行结构

20 篇文章 1 订阅 ¥99.90 ¥299.90

本章我们将通过入门案例,从开发环境准备到程序运行输出,带领大家初步认识 Flink。

目录
  • Flink 程序结构
  • Flink 初步入门案例

Flink 程序结构

DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的底层 API 是相同的。

Flink 程序看起来像一个转换 DataStream 的常规程序,每个程序由相同的基本部分组成:

  • 获取一个执行环境(Execution Environment)
  • 加载/创建初始数据(Source)
  • 指定数据相关的转换(Transformation)
  • 指定计算结果的存储位置(Sink)
  • 触发程序执行

下面我们通过一个完整案例,初步了解 Flink 程序运行结构

本地开发环境准备

  • 安装 JDK(本次课程实验案例均采用 Java 开发,需要安装 JDK)

  • 安装 Maven

  • 安装 IDEA 开发工具

  • 打开 IDEA 应用,创建一个 Maven 工程
    完成整个项目信息

  • 配置 Maven 环境
    在这里插入图片描述

  • 修改 pom.xml 文件,增加 Maven 依赖

在笔者书写阶段,当前 Flink 的最高正式版本为 1.19.0,本次课程我们后续的实验案例均采用该版本的配置。对应 Maven 依赖配置如下:

注意:后续我们所有的实验案例,均是在此 maven 配置的基础上进行开发的。

<properties>
    <flink.version>1.19.0</flink.version>
</properties>
<dependencies>
    <!--  idea 本地开发,客户端运行依赖的 jar 包,生产集群上不需要 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-clients</artifactId>
        <version>${flink.version}</version>
    </dependency>
  <!-- 本地开发,用来访问 WebUI 界面 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-runtime-web</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <!-- DataStreaming 依赖的 jar 包-->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-java</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <!-- flink table&&SQL依赖的 jar 包 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-runtime</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-planner-loader</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-api-java</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-table-api-java-bridge</artifactId>
        <version>${flink.version}</version>
    </dependency>
    <!-- 引入 Lombok 包,方便后续使用注解形式来简化java代码 -->
    <dependency>
        <groupId>org.projectlombok</groupId>
        <artifactId>lombok</artifactId>
        <version>1.18.10</version>
    </dependency>
</dependencies>
<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <configuration>
                <source>8</source>
                <target>8</target>
                <encoding>UTF-8</encoding>
            </configuration>
        </plugin>
    </plugins>
</build>

pom 文件修改

接下来我们就可以创建我们的第一个 Flink 任务了。

基于需求代码输出

需求:统计 10 秒窗口内,来自 Web 套接字的单词数。

  1. 创建 WindowWordCount.java,对应文件内容如下:

    import org.apache.flink.api.common.functions.FlatMapFunction;
    import org.apache.flink.api.java.tuple.Tuple2;
    import org.apache.flink.streaming.api.datastream.DataStream;
    import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
    import org.apache.flink.util.Collector;
    
    import java.time.Duration;
    
    public class WindowWordCount {
    
        public static void main(String[] args) throws Exception {
    
            StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
            DataStream<Tuple2<String, Integer>> dataStream = env
                    .socketTextStream("localhost", 9999)
                    .flatMap(new Splitter())
                    .keyBy(value -> value.f0)
                    .window(TumblingProcessingTimeWindows.of(Duration.ofSeconds(10)))
                    .sum(1);
            dataStream.print();
            env.execute("Window WordCount");
        }
    
        public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
            @Override
            public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
                for (String word: sentence.split(" ")) {
                    out.collect(new Tuple2<String, Integer>(word, 1));
                }
            }
        }
    }
    
  2. 启动控制台,在控制台终端输入命令:nc -lp 9999
    在这里插入图片描述

  3. 在 IDEA 中运行 WindowWordCount.java 程序,启动之后,在控制台终端中,输入一些单词,然后按回车键即可传入数据源,这些将作为单词统计程序的输入。

    如果想查看大于 1 的计数,在 10 秒内重复输入相同的单词即可(如果无法快速输入,则可以将窗口大小从 10 秒增加)。
    在这里插入图片描述

  4. 在控制台输入完数据之后,查看程序运行输出的结果信息:
    在这里插入图片描述

章节总结

Flink 中的 DataStream 程序是对数据流进行转换的常规程序。数据流的起始 Source 是从各种源(例如消息队列、套接字流、文件)创建的。在 Transformation 模块定义了对 DataStream 数据集的各种转换操作,例如过滤、更新状态、定义窗口、聚合等操作。最后结果通过 Sink 返回,例如可以将数据写入文件或标准输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

springk

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值