Flink学习笔记（一）：基础概念

最新推荐文章于 2024-07-24 16:31:12 发布

gentlewei

最新推荐文章于 2024-07-24 16:31:12 发布

阅读量461

点赞数 1

本文链接：https://blog.csdn.net/gentlewei/article/details/104163313

版权

本文介绍了Apache Flink的基础概念，包括有界和无界数据集，以及Flink如何实现批流统一。Flink是用于流处理的开源框架，支持低延迟、高吞吐和exactly-once语义。文章还比较了Flink与其他主流数据流处理框架的特点，强调了Flink的任务调度原理和其强大的状态管理能力。Flink的编程模型允许开发者构建数据流和算子，通过Source、Transformations和Sink进行数据处理，并支持时间窗口和水印机制来处理事件时间。

摘要由CSDN通过智能技术生成

文章目录

1.有界/无界数据集

有界数据集
有界数据集对开发者来说都很熟悉，在常规的处理中我们都会从Mysql，文本等获取数据进行计算分析。我们在处理此类数据时，特点就是数据是静止不动的。也就是说，没有再进行追加。又或者说再处理的当时时刻不考虑追加写入操作。所以有界数据集又或者说是有时间边界。在某个时间内的结果进行计算。那么这种计算称之为批计算，批处理。Batch Processing
无界数据集
对于某些场景，类似于Kafka持续的计算等都被认定为无界数据集，无界数据集是会发生持续变更的、连续追加的。例如:服务器信令、网络传输流、实时日志信息等。对于此类持续变更、追加的数据的计算方式称之为流计算。Streaming Processing

有界数据集与无界数据集是一个相对模糊的概念，如果数据一条一条的经过处理引擎那么则可以认为是无界的，那么如果每间隔一分钟、一小时、一天进行一次计算那么则认为这一段时间的数据又相对是有界的。有界的数据又可以把数据一条一条的通过计算引擎，造成无界的数据集。所以，有界数据集与无界数据集可以存在互换的。因此业内也就开始追寻批流统一的框架。

能够同时实现批处理与流处理的框架有Apache Spark和Apache Flink，而Apache Spark的流处理场景是一个微批场景，也就是它会在特定的时间间隔发起一次计算。而不是每条都会触发计算。也就是相当于把无界数据集切分为小量的有界数据。

Apache Flink基于有界数据集与无界数据集的特点，最终将批处理与流处理混合到同一套引擎当中，用户使用Apache Flink引擎能够同时实现批处理与流处理任务。

2.Flink简介

Apache Flink 是由 Apache 软件基金会开发的开源流处理框架，其核心是用 Java 和 Scala 编写的分布式流数据处理引擎。Flink 以数据并行和流水线方式执行任意流数据程序，Flink 的流水线运行时系统可以执行批处理和流处理程序。此外，Flink 的运行时本身也支持迭代算法的执行。
Flink 提供高吞吐量、低延迟的流数据处理引擎以及对事件时间处理和状态管理的支持。Flink应用程序在发生机器故障时具有容错能力，并且支持exactly-once语义。
Flink 并不提供自己的数据存储系统，但为Amazon Kinesis、Apache Kafka、HDFS、Apache Cassandra和ElasticSearch等系统提供了数据源和接收器

3.主流数据流处理框架特点比较

Storm：支持低延迟，但是很难实现高吞吐，并且不能保证 exactly-once
Sparking Streaming ( Storm Trident )：利用微批处理实现的流处理(将连续事件的流数据分割成一系列微小的批量作业)，能够实现 exactly-once 语义，但不可能做到完全实时(毕竟还是批处理，不过还是能达到几秒甚至几亚秒的延迟)
Flink：实时流处理，支持低延迟、高吞吐、exactly-once 语义、有状态的计算、基于事件时间的处理

相对来说，Flink实现了真正的流处理，并且做到了低延迟、高吞吐 和 exactly-once 语义；同时还支持有状态的计算(即使在发生故障时也能准确的处理计算状态) 和基于事件时间的处理

4.Flink任务调度原理

在这里插入图片描述
当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager 去执行，然后 TaskManager 将心跳和统计信息汇报给 JobManager。TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。

Client 为提交 Job 的客户端，可以是运行在任何机器上（与 JobManager 环境连通即可）。提交 Job 后，Clie

最低0.47元/天解锁文章

gentlewei

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Flink学习笔记（一）：基础概念

文章目录1.有界/无界数据集2.Flink简介3.主流数据流处理框架特点比较4.Flink 基本架构5.Flink编程模型6.对时间的处理7. 窗口8.时间和水印(Watermarks)9.有状态计算1.有界/无界数据集有界数据集有界数据集对开发者来说都很熟悉，在常规的处理中我们都会从Mysql，文本等获取数据进行计算分析。我们在处理此类数据时，特点就是数据是静止不动的。也就是说，没有再进行...
复制链接

扫一扫