Hello Flink (二)

Schear_Loe

已于 2023-04-25 00:00:12 修改

阅读量48

点赞数

分类专栏：大数据学习总结文章标签： flink java 大数据

于 2023-04-24 23:50:12 首次发布

本文链接：https://blog.csdn.net/weixin_42486226/article/details/130354829

版权

大数据学习总结专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Hello Flink (二)

胡汉三带着Java回来了，毕竟官网的文档示例都是Java，咱还是得虚心从Java开始。

一、WordCount

最为大数据界的Hello World，WC还是有必要重温一下，用它来学习大数据框架太合适了。

既然说起来大数据处理，一定避不开两个问题：流处理or批处理。这里我就先试一下批处理的方式，实现一个简单的WC。

public class BatchWordCount {
        // 1、创建一个执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 2、从文件中读取数据
        DataSource<String> lineDataSource = env.readTextFile("input/words.txt");

        // 3、将每行数据拆分成单词，转换成二元组(word, 1)
        FlatMapOperator<String, Tuple2<String, Integer>> wordTuples = lineDataSource.flatMap((String line, Collector<Tuple2<String, Integer>> out) -> {
            String[] words = line.split(" ");
            for (String word : words) {
                out.collect(new Tuple2<>(word, 1));
            }
        }).returns(Types.TUPLE(Types.STRING, Types.INT));

        // 4、按照单词分组
        UnsortedGrouping<Tuple2<String, Integer>> wordGroup = wordTuples.groupBy(0);

        // 5、对分组后的数据进行聚合
        wordGroup.sum(1).print();

}

从上面的代码可以看到，整体流程还是贴近spark的感觉，执行环境->创建输入DS->处理逻辑；但是细节又有不同，比如DS里面泛型直接给到String，flatMap传入的函数，还有函数内的收集器Collector，再加上Flink准备的Tuple，如果没有Tuple我可能要吐槽一百遍。里面的returns是我没想到的，竟然还需要指定返回的数据类型，其实不加这个代码也可以获取到同样类型的返回，但就是会报错提示不能自动转换，我得研究一下子。