Flink 基础学习(四)转换 Transformation

最新推荐文章于 2024-05-23 16:56:59 发布

javageektech

最新推荐文章于 2024-05-23 16:56:59 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/javageektech/article/details/103169655

版权

本文主要探讨Apache Flink中的核心概念——转换(Transformation)，包括各类转换操作的介绍和应用，帮助读者深入理解Flink的数据处理流程。

摘要由CSDN通过智能技术生成

这是 Java 极客技术的第 257 篇原创文章

1 前言

前面写了如何使用 Flink 读取常用的数据源，也简单介绍了如何进行自定义扩展数据源，本篇介绍它的下一步：数据转换 Transformation，其中数据处理用到的函数，叫做算子 Operator，下面是算子的官方介绍。

算子将一个或多个 DataStream 转换为新的 DataStream。程序可以将多种转换组合成复杂的数据流拓扑。

在学习过程中，官网是个不错的入门介绍，格式如下：

一共有两列，左边介绍了函数名称，转换前的流类型，以及转换后的流类型，右边进行了方法描述，介绍该算子的概念和作用，然后有个代码段，告诉了如何使用它。

但官网的中文介绍不多，有些例子 demo 也有点不完善，所以接下来我会将自己理解笔记贴下来，跟大家一起来学习。

友情提示，贴出来的代码段可能不完整，可以下载 github 上的代码进行参考。

2 转换 Transformation

2.1 Map，DataStream ---> DataStream

映射转换。输入是一个 DataStream，输出也是一个 DataStream，属于一对一操作，例如输入是 [1, 3, 5]，然后每个数乘以 2，可以通过下面形式实现：

dataStream.map((MapFuction) <Integer, Integer>) value -> value * 2;);

将会输出 [2, 6, 10]，也有可能不是如上顺序，默认按照程序处理数据的时间进行输出。

后面如果大家发现执行顺序与我展示的不一致，请不用担心，属于正常现象，由于顺序性问题涉及到时间和窗口属性的作用，所以请各位先按照默认情况运行，理解算子的概念和使用，之后再去了解上述概念。

2.2 FlatMap，DataStream ---> DataStream

"平坦"映射（不知道该如何翻译囧）。 不同于上面的单个操作，这是一对多操作，取一个元素并产生零个，一个或多个元素。例如拆分一行字符串，然后输出多个单词：

SingleOutputStreamOperator<String> operator = source.flatMap(new FlatMapFunction<String, String>() {
      
    @Override
    public void flatMap(String value, Collector<String> out) throws Exception {
      
        String[] tokens = parseString2Tokens(value);
        if (tokens == null) {
      
            return;
        }
        for (String token : tokens) {
      
            out.collect(token);
        }
    }
});

输出多个元素的关键是 Collector 这个参数，通过它可以收集到更多元素。

2.3 Filter，DataStream ---> DataStream

过滤操作。通过一个 boolean function 对元素进行过滤，保留为 true 的元素，从而达到过滤的目的。例如下面过滤操作，保留 id 是偶数的元素：

SingleOutputStreamOperator operator = source.filter((FilterFunction<String>) value -> {
      
    Student stu = parseTokens2Object(parseString2Tokens(value));
    return stu != null && stu.getId() % 2 == 0;
});

2.4 KeyBy，DataStream ---> KeyedStream

按键 key 进行分类。KeyBy 通过 Hash partitioning 方法将一个 stream 变成一组不相交的分区 partitions，每个 partitions 包含的元素具有相同的 key。例如输入的是一组字符串，根据第一个字段的整数值进行分类：

KeyedStream<String, Integer> keyedStream = source.keyBy((KeySelector<String, Integer>) value -> {
      
    String[] tokens = parseString2Tokens(value);
    return tokens == null ? 0 : Integer.valueOf(tokens[0]);
});

注意，KeyBy 操作后，流类型从 DataStream 变成了 keyedStream，是一组 partition