Flink知识点总结

最新推荐文章于 2023-02-26 15:09:46 发布

x我有辣条跟我走。

最新推荐文章于 2023-02-26 15:09:46 发布

阅读量2.1k

点赞数 3

分类专栏：大数据阶段-知识点总结文章标签： flink

本文链接：https://blog.csdn.net/XIAOMO__/article/details/108714268

版权

本文详细梳理了Apache Flink的相关知识点，包括与Spark Streaming、Storm的区别，Flink的重要特点，有界流和无界流的概念，以及Flink的组件、任务提交流程、算子之间的数据传输形式、状态管理和一致性保证等核心概念。通过对Flink的深入理解，有助于开发者更好地掌握实时数据处理的原理和实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是flink？

2.sparkstreaming 和 strom 有啥区别？

3.flink 和 sparktreaming 有啥区别？

9.jobManager收到的应用程序包含哪些？

10.taskManager作用？

11.taskManager执行任务的数量由什么来决定的？

12.resourceManager作用？

25.window function 对数据的计算分为两类？

26.Flink 提供了 8 个 Process Function？

27.Flink 的 TimerService？

28.Flink 为算子状态提供三种基本数据结构？

35.Flink+Kafka 如何实现端到端的 exactly-once 语义

36.flink StateBackend？

37.几种状态后端的区别？

38.spark DAG 如何划分stage？

39.flink 是否允许任务共享slot？

40.什么是StreamGraph？

41.什么是JobGraph？

42.什么是ExecutionGraph？

56.什么是processfunction 函数？

62.检查点（checkpoint）和保存点（savepoint）的区别？

63.什么是状态一致性？

64.什么是2PC(两阶段提交)？

65.flink和kafka端到端状态一致性的保证？

1.什么是flink？

ApacheFlink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。

Flink能够提供毫秒级别的延迟，同时保证了数据处理的低延时，高吞吐和结果的正确性，还提供了丰富的时间类型和窗口计算，Exactly-once （就一次）语义支持，另外还可以进行状态管理，并提供了CEP（复杂事件处理）的支持。

2.sparkstreaming 和 strom 有啥区别？

storm:实时，优点：良好的容错性，事务；并且是单一的框架

sparkstreaming:批处理，准实时，一个一个的batch,一个batch就是一个时间段内连续不间断的rdd。

3.flink 和 sparktreaming 有啥区别？

数据模型
- spark采用RDD模型，spark streaming的DStream实际上也就是一组组小批数据RDD的集合。
- flink基本数据模型是数据流，以及事/件序列。
运行架构
- 是批计算，将DAG划分为不同的stage,一个完成后才可以计算下一个。
- flink是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理。

4.Flink 的重要特点？

事件驱动型:事件驱动型应用是一类具有状态的应用，它从一个或多个事件来提取数据，并根据到来的时间触发计算，状态更新或其他外部动作。

基于流的世界观：在flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是所谓的有界流和无界流。

分层的API：越顶层越抽象，表达含义越简明，使用越方便。越底层越方便，表达意思越丰富，使用越灵活。

5.什么是有界流和无界流？

在Spark的世界观中，一切都是由批次组成的，离线数据是一个大批次，而实时数据是一个一个无限的小批次组成的。

在Flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是有界流和无界流。

无界数据流：
- 有定义流的开始，但没有定义流的结束。
- 它们会无休止地产生数据。
- 无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理，因为输入是无限的，在任何时候输入都不会完成。
- 处理无界数据通常要求以特定顺序摄取事件，例如事件发生的顺序，以便能够推断结果的完整性。
有界数据流：
- 有定义流的开始，也有定义流的结束。
- 有界流可以在摄取所有数据后再进行计算。
- 有界流所有数据可以被排序，所以并不需要有序摄取。
- 有界流处理通常被称为批处理

6.Flink的其他特点？

支持事件时间(event- time)和处理时间(processing time)
精确一次的状态一致性保证
低延迟，每秒处理数百万个事件，毫秒级延迟
与众多常用存储系统的连接
高可用，动态扩展，实现7*24小时全天候运行

7.Flink 组件？

jobManager：作业管理器

taskManager：任务管理器

resourceManager：资源管理器

dispacher：分发器

8.jobManager作用？

控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的jobManager所控制。
jobManager会先接收到要执行的应用程序，这个应用程序会包括：作业图，逻辑数据流图和打包了所有类、库和其它资源的jar包。
jobManager会把jobGraph转换成一个物理层面的数据流图，这个图被叫做“执行图”，包含了所有可以执行的任务。
jobManager会向资源管理器（resourceManager）请求执行任务必要的资源，也就是任务管理器（taskManager）上的插槽（slot）。一旦它获取到了足够的资源，就会将执行图分发到真正运行它们的taskManager上。而在运行过程中，jobManager会负责所有需要中央协调的操作，比如说检查点（checkpoints）的协调。

9.jobManager收到的应用程序包含哪些？

作业图（JobGraph），逻辑数据流图（logic dataflow graph）和打包了所有类、库和其它资源的jar包。

10.taskManager作用？

flink中的工作进程。通常在flink中会有多个taskManager运行，每一个taskManager都包含了一定数量的插槽（slots）。插槽的数量限制了taskManager能够执行的任务数量。
启动之后，taskManager会向资源管理器注册它的插槽；收到资源管理器的指令后，taskManager就会将一个或多个插槽提供给jobManager调用。jobManager就可以向插槽分配任务（tasks）来执行了。
在执行过程中，一个taskManager可以跟其他运行同一应用程序的taskManager交换数据。

11.taskManager执行任务的数量由什么来决定的？

task的数量由taskManager内包含的slots的总数量决定，slot的总数量也决定了任务执行的并行度。

12.resourceManager作用？

主要负责管理任务管理器（taskManager）的插槽（slot）,taskManager插槽是flink中定义的处理资源单元。
flink为不同的环境和资源管理工具提供不同的资源管理工具，比如YARN、Mesos、K8s，以及standalone部署。
当jonManager申请插槽资源时，ResourceManager会将有空间插槽来满足jobManager的请求，它还可以向资源提供平台发起会话，以提供启动taskManager进程的容器。

13.flink的资源单元？

taskManager的slot

14.分发器的作用？

可以跨作业运行，它为应用提交提供了REST接口。
当一个应用被提交执行时，分发器就会启动并将应用移交给一个jobManager
dispatcher也会启动一个web UI，用来方便地展示和监控作业执行的信息
dispatcher在架构中可能并不是必须的，这个取决于应用提交运行的方式

15.总结任务提交流程？

16.flink的应用程序包含几部分？

所有的flink程序都是由三部分的：source、Transformation和Sink
source负责读取数据源，Transformation利用各种算子进行处理加工，Sink负责输出

17.flink的执行图分为几层？

StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图

18.算子之间数据传输的形式？

One-to-one：stream维护者分区以及元素的顺序（比如source和map之间）。这就意味着map算子的子任务看到的元素的个数以及顺序跟source算子的子任务生产的元素的个数、顺序相同。map、fliter、flatmap、等算子都是one-to-one的对应关系。
Redistributing：stream的分区会发生改变。每一个算子的子任务依据所选择的transformation发送数据到不同的目标任务。例如：keyBy基于hashCode重分区、而broadcast和rebalance会随即重新分区，这些算子都会引起redistribute过程，而redistribute过程就类似于spark中的shuffle过程。

19.flink的任务链？任务链的要求？

flink的任务链：

flink采用了一种称为任务链的优化技术，可以在特定的条件下减少本地雍熙的开销。为了满足任务链的要求，必须将两个或者多个算子设为相同的并行度，并通过本地转发（local forward）的方式进行连接
相同并行度的 one-to-one操作，flink这样相连的算子链接在一起形成一个task，原来的算子成为里面的subtask
并行度相同、并且是one-to-one操作，两个条件缺一不可

任务链的要求：并行度相同、并且是one-to-one操作，两个条件缺一不可