【Flink】Flink的wordCount——批处理和流处理

最新推荐文章于 2024-08-06 10:35:08 发布

不断学习的克里斯

最新推荐文章于 2024-08-06 10:35:08 发布

阅读量758

点赞数

分类专栏： Flink 文章标签：分布式大数据 flink

本文链接：https://blog.csdn.net/m0_65025800/article/details/123905647

版权

Flink 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

本文对比了Apache Flink和Storm在批处理和流处理任务中的关键差异，包括执行环境、数据类型转换、分组方法和执行流程。通过实例展示了如何在Flink的批处理和StreamExecutionEnvironment下完成字符串计数任务。

摘要由CSDN通过智能技术生成

一、批处理

public class wordCount {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        // 从文件中读取数据
        String inputPath = "data//hello.txt";
//        String inputPath = "D:\\Projects\\BigData\\FlinkTutorial\\src\\main\\resources\\hello.txt";
        DataSet<String> inputDataSet = env.readTextFile(inputPath);
        // 对数据集进行处理，按空格分词处理，转换成（word，1）二元组进行统计
        DataSet<Tuple2<String, Integer>> result = inputDataSet.flatMap(new MyFlatMapper())
                .groupBy(0)
                .sum(1);
        result.print();

    }

    // 自定义类，实现FlatMapFunction接口
    public static class MyFlatMapper implements FlatMapFunction<String, Tuple2<String,Integer>> {
        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> out) throws Exception {
            String[] words = s.split(" ");
            for (String word : words) {
                out.collect(new Tuple2<>(word,1));
            }
        }
    }
}

二、流处理

public class StreamWordCount {
    public static void main(String[] args) throws Exception {
        // 1. 创建流式执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        
        // 2. 读取文本流
        DataStreamSource<String> lineDSS = env.socketTextStream("hadoop102", 7777);
        
        // 3. 转换数据格式
        SingleOutputStreamOperator<Tuple2<String, Long>> wordAndOne = lineDSS
                .flatMap((String line, Collector<String> words) -> {
                    Arrays.stream(line.split(" ")).forEach(words::collect);
                })
                .returns(Types.STRING)
                .map(word -> Tuple2.of(word, 1L))
                // 当 Lambda 表达式使用 Java 泛型的时候, 由于泛型擦除的存在, 需要显示的声明类型信息
                .returns(Types.TUPLE(Types.STRING, Types.LONG));
        
        // 4. 分组
        KeyedStream<Tuple2<String, Long>, String> wordAndOneKS = wordAndOne
                .keyBy(t -> t.f0);
        
        // 5. 求和
        SingleOutputStreamOperator<Tuple2<String, Long>> result = wordAndOneKS
                .sum(1);
        
        // 6. 打印
        result.print();
        // 7. 执行
        env.execute();
    }
}

与批处理程序 BatchWordCount 的不同：

1、创建执行环境的不同，流处理程序使用的是 StreamExecutionEnvironment 。

2、每一步处理转换之后，得到的数据对象类型不同。

3、分组操作调用的是 keyBy 方法，可以传入一个匿名函数作为键选择器（KeySelector ），指定当前分组的 key 是什么。

4、代码末尾需要调用 env 的 execute 方法，开始执行任务。