flink 学习(一)java 整合 flink


前言

        Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

一、流、批处理

        有界流:有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。

        无界流:有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。

        流处理:无界流通常被称为流处理。当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。数据是一条一条的处理,实时性高。

        批处理:有界流处理通常被称为批处理。当一条数据被处理完成后,序列化到缓存中,并不会立刻通过网络传输到下一个节点,当缓存写满,就持久化到本地硬盘上,当所有数据都被处理完成后,才开始将处理后的一批数据通过网络传输到下一个节点。数据是一批一批处理,实时性低。

二、hello world

1.环境

jdk11 + flink1.14.4

引入flink 依赖

	<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-java -->
		<dependency>
			<groupId>org.apache.flink</groupId>
			<artifactId>flink-java</artifactId>
			<version>1.14.4</version>
		</dependency>
		<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java -->
		<dependency>
			<groupId>org.apache.flink</groupId>
			<artifactId>flink-streaming-java_2.12</artifactId>
			<version>1.14.4</version>
		</dependency>
		<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-clients -->
		<dependency>
			<groupId>org.apache.flink</groupId>
			<artifactId>flink-clients_2.12</artifactId>
			<version>1.14.4</version>
		</dependency>

2.流处理

 @Test
    public void streamingTest() throws Exception {
        // flink 流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置模式 STREAMING
        env.setRuntimeMode(RuntimeExecutionMode.STREAMING);
        //数据源,fromCollection
        env.fromCollection(List.of("nacos,python,java", "nacos,scripts,php", "nacos,java,springmvc", "nacos,sentinel,gateway"))
                //扁平化
                .flatMap(new FlatMapFunction<String, String>() {
                    @Override
                    public void flatMap(String value, Collector<String> out) throws Exception {
                        Arrays.stream(value.split(",")).forEach(v -> out.collect(v));
                    }
                })
                //映射
                .map(new MapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<String, Integer> map(String value) throws Exception {
                        return Tuple2.of(value, 1);
                    }
                })
                //分组
                .keyBy((KeySelector<Tuple2<String, Integer>, String>) value -> value.f0)
                //求和
                .sum(1)
                //打印结果
                .print();
        //开始执行
        env.execute("flink streaming hello word");
    }

执行结果:

6> (springmvc,1)
3> (python,1)
2> (java,1)
2> (java,2)
1> (scripts,1)
4> (php,1)
8> (nacos,1)
8> (nacos,2)
8> (nacos,3)
8> (nacos,4)
8> (sentinel,1)
8> (gateway,1)

可以看出,数据进行的是流处理:一条一条处理,一条一条打印

3.批处理

将执行模式修改为 BATCH

 @Test
    public void batchTest() throws Exception {
        // flink 流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置模式 BATCH
        env.setRuntimeMode(RuntimeExecutionMode.BATCH);
        ...

结果:

2> (java,2)
6> (springmvc,1)
3> (python,1)
8> (nacos,4)
1> (scripts,1)
4> (php,1)
8> (gateway,1)
8> (sentinel,1)

可以看出,数据进行的是批处理:数据处理完后,打印了统计结果,没有中间数据打印

4.自动处理

将执行模式修改为 AUTOMATIC

@Test
    public void automicTest() throws Exception {
        // flink 流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置模式 AUTOMATIC
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        ...

结果跟批处理一样,因为数据源是从集合中获取数据,数据是有界的,自动按照批处理模式进行处理。

三、文件数据源

1.从文件中读取

file.txt 文件中的内容:

java,python,c++
java,python,c#
java,c++,php
 	@Test
    public void fileTest() throws Exception {
        // flink 流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置模式 AUTOMATIC
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        //数据源,文件
        env.readTextFile("E:\\tmp\\flink\\file.txt")
                //扁平化
                .flatMap(new FlatMapFunction<String, String>() {
                    @Override
                    public void flatMap(String value, Collector<String> out) throws Exception {
                        Arrays.stream(value.split(",")).forEach(v -> out.collect(v));
                    }
                })
                //映射
                .map(new MapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<String, Integer> map(String value) throws Exception {
                        return Tuple2.of(value, 1);
                    }
                })
                //分组
                .keyBy((KeySelector<Tuple2<String, Integer>, String>) value -> value.f0)
                //求和
                .sum(1)
                //打印结果
                .print();
        //开始执行
        env.setParallelism(1);
        env.execute("flink streaming hello word1");
    }

结果:一行一行读取

5> (c#,1)
2> (java,3)
4> (php,1)
3> (c++,2)
3> (python,2)

2.从目录中读取

目录中有两个文件,

文件1内容:

java,python,c++
java,python,c#
java,c++,php

文件2内容:

java,python
java,python
java,python
 	@Test
    public void dirTest() throws Exception {
        // flink 流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置模式 AUTOMATIC
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        //数据源,fromCollection
        env.readTextFile("E:\\tmp\\flink")
                //扁平化
                .flatMap(new FlatMapFunction<String, String>() {
                    @Override
                    public void flatMap(String value, Collector<String> out) throws Exception {
                        Arrays.stream(value.split(",")).forEach(v -> out.collect(v));
                    }
                })
                //映射
                .map(new MapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<String, Integer> map(String value) throws Exception {
                        return Tuple2.of(value, 1);
                    }
                })
                //分组
                .keyBy((KeySelector<Tuple2<String, Integer>, String>) value -> value.f0)
                //求和
                .sum(1)
                //打印结果
                .print();
        //开始执行
        env.setParallelism(1);
        env.execute("flink streaming hello word1");
    }

结果:

3> (c++,2)
3> (python,5)
5> (c#,1)
4> (php,1)
2> (java,6)
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
Flink是一个流式处理框架,它可以用于处理实时数据流。在Java开发中,可以使用Flink来构建和执行各种数据处理任务。在Flink学习笔记中,大部分的代码示例都是使用Java编写的,因为作者本人是Java开发工程师。不过,也会涉及到其他编程语言,比如Scala等。 在使用Flink进行开发时,你可以根据需求自定义数据源。一种常见的做法是实现SourceFunction接口,并重写run方法和cancel方法。例如,可以创建一个DemoTransactionSource类来实现自定义数据源,该类继承自SourceFunction,并在run方法中发射元素(数据)。 在Flink中还有一个重要的概念是累加器。累加器用于统计任务在运行过程中的情况,比如处理了多少条数据。常见的累加器实现有IntCounter、LongCounter和DoubleCounter。你可以通过在函数中使用累加器来增加其值,并在作业执行完毕后获取累加器的结果。例如,可以使用IntCounter作为累加器,在数据处理过程中使用counter.add(1)来增加累加器的值,然后在作业执行完毕后通过JobExecutionResult对象的getAccumulatorResult方法获取累加器的结果。 总结起来,如果你想在Java中使用Flink进行流式处理,你可以学习Flink的相关知识,并根据需求来自定义数据源和使用累加器来统计任务的情况。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Flink - Java篇](https://blog.csdn.net/weixin_48518621/article/details/123189828)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_lrs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值