目录
1. 简单介绍
Apache Flink是一个流式数据处理的框架和分布式计算引擎,支持无界和有界的流式数据处理计算,同时支持批式数据处理计算,是一个。
flink是以事件驱动的,每当数据流中传递进来一个数据后,就会触发flink中的计算逻辑。使用flink最大的优势就是其可以保证低延迟、高吞吐以及计算结果的正确性。
2. 简单开发词频统计demo
1. 首先创建maven项目,然后引入jar包依赖
<dependencies>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>1.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java_2.12</artifactId>
<version>1.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-lang3</artifactId>
<version>3.10</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka-0.11_2.12</artifactId>
<version>1.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.bahir</groupId>
<artifactId>flink-connector-redis_2.11</artifactId>
<version>1.0</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.44</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-statebackend-rocksdb_2.12</artifactId>
<version>1.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner_2.12</artifactId>
<version>1.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner-blink_2.12</artifactId>
<version>1.10.1</version>
</dependency>
</dependencies>
2. 简单入门开发demo——词频统计
(1)批处理模式的flink开发:
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;
/**
* @ClassName WordCount
* @Description: 批处理模式下的wordcount实例,在flink中,批处理一般常用于针对离线数据计算
* @Author dinggang
* @Date 2020/12/3 21:53
* @Modified By:
* @Version V1.0
*/
public class WordCount {
public static void main(String[] args) throws Exception {
//首先,创建flink批处理执行环境
ExecutionEnvironment environment = ExecutionEnvironment.getExecutionEnvironment();
//从文本文件中按行读取数据。这里是创建数据源操作
DataSource<String> stringDataSource = environment.readTextFile("D:\\idea项目库\\flink_java_study\\src\\main\\resources\\word.txt");
//对数据集进行处理,按空格分隔,并转换为(word,1)形式的二元组。flatMap方法就表示将数据打散并转化为想要的中间数据格式
AggregateOperator<Tuple2<String, Integer>> sum = stringDataSource.flatMap(new MyFlatMapper())
/*
调用groupBy方法,对每个word进行分组,该操作相当于将同一个word分为一组
参数0表示取二元组Tuple2中的第几个数据,也就是数据下标
*/
.groupBy(0)
/*
分组后求和,最终计算步骤,统计求和,这里的参数表示是针对二元组中的那个数据进行计算
参数含义同上
*/
.sum(1);
/*
sum就是最后的计算结果,在这里输出查看
*/
sum.print();
}
/*
自定义FlatMapFunction,泛型中的第一个类表示输入

本文详细介绍了Apache Flink的简单应用,包括批处理和流处理模式下的词频统计Demo,展示了如何创建并运行Flink任务。同时,深入探讨了Flink的整体架构,包括API&Libraries层、Runtime层和物理运行环境层,解释了Job提交流程、任务调度原理以及任务执行图的优化。通过对Flink架构的解析,帮助读者理解其分布式计算引擎的工作机制。
最低0.47元/天 解锁文章
3434

被折叠的 条评论
为什么被折叠?



