Flink面试题

javastart

已于 2023-06-13 13:13:18 修改

阅读量1.1k

点赞数

分类专栏： flink 数据仓库大数据文章标签： hadoop flink 大数据

于 2023-05-30 18:01:18 首次发布

原文链接：https://www.cnblogs.com/huanghanyu/p/16644882.html

版权

大数据同时被 3 个专栏收录

236 篇文章 17 订阅

订阅专栏

数据仓库

52 篇文章 29 订阅

订阅专栏

flink

43 篇文章 15 订阅

订阅专栏

原文：https://www.cnblogs.com/huanghanyu/p/16644882.html

阅读目录

1.什么是Apache Flink（为什么使用 Flink 替代 Spark？）

Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的，具备低延迟、高吞吐的优秀性能，并且非常擅长处理有状态的复杂计算逻辑场景。

2.Flink 的核心概念

Flink 的核心概念主要有四个：Event Streams、State、Time 和 Snapshots。

Event Streams：即事件流，事件流可以是实时的也可以是历史的。Flink 是基于流的，但它不止能处理流，也能处理批，而流和批的输入都是事件流，差别在于实时与批量。
- State：Flink 擅长处理有状态的计算。通常的复杂业务逻辑都是有状态的，它不仅要处理单一的事件，而且需要记录一系列历史的信息，然后进行计算或者判断。
- Time：最主要处理的问题是数据乱序的时候，一致性如何保证。
- Snapshots：实现了数据的快照、故障的恢复，保证数据一致性和作业的升级迁移等。

3.作业在很多情况下有可能会失败。失败之后重新去运行时，我们如何保证数据的一致性？

Flink 基于 Chandy-Lamport 算法，会把分布式的每一个节点的状态保存到分布式文件系统里面作为 Checkpoint（检查点），过程大致如下。首先，从数据源端开始注入 Checkpoint Barrier，它是一种比较特殊的消息。

然后它会跟普通的事件一样随着数据流去流动，当 Barrier 到达算子之后，这个算子会把它当前的本地状态进行快照保存，当 Barrier 流动到 Sink，所有的状态都保存完整了之后，它就形成一个全局的快照。

这样当作业失败之后，就可以通过远程文件系统里面保存的 Checkpoint 来进行回滚：先把 Source 回滚到 Checkpoint 记录的 offset，然后把有状态节点当时的状态回滚到对应的时间点，进行重新计算。这样既可以不用从头开始计算，又能保证数据语义的一致性。

4.Flink的时间语义

Event Time：事件创建的时间
Ingestion Time：数据进入Flink的时间
Processing Time：执行操作算子的本地系统时间，与机器相关

5.Flink的API可分为哪几层？

SQL & Table API 同时适用于批处理和流处理，这意味着你可以对有界数据流和无界数据流以相同的语义进行查询，并产生相同的结果。除了基本查询外，它还支持自定义的标量函数，聚合函数以及表值函数，可以满足多样化的查询需求。
DataStream & DataSet API 是 Flink 数据处理的核心 API，支持使用 Java 语言或 Scala 语言进行调用，提供了数据读取，数据转换和数据输出等一系列常用操作的封装。
Stateful Stream Processing 是最低级别的抽象，它通过 Process Function 函数内嵌到 DataStream API 中。 Process Function 是 Flink 提供的最底层 API，具有最大的灵活性，允许开发者对于时间和状态进行细粒度的控制。

Flink面试题

1.什么是Apache Flink（为什么使用 Flink 替代 Spark？）

2.Flink 的核心概念

3.作业在很多情况下有可能会失败。失败之后重新去运行时，我们如何保证数据的一致性？

4.Flink的时间语义

5.Flink的API可分为哪几层？

6.Flink 运行时组件

7.Flink任务提交流程

8.任务提交流程（YARN）

9.Flink的执行图

10.Flink的分区策略

11.Flink 的状态分为哪两类

12.KeyedState都有哪几类

13.Flink中watermark的概念

14.什么是Flink的全局快照

15.为什么需要全局快照

16.Flink的容错机制

17.Flink是如何实现End-To-End Exactly-once的？

18.解释下两阶段提交？

19.两阶段提交API

20.Flink 的 checkpoint 存在哪里？

21.海量 key 去重

22.Flink 的 checkpoint 机制对比 spark 有什么不同和优势？

23.Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里？

24.Flink 程序在面对数据高峰期时如何处理？

25.Flink 的运行必须依赖 Hadoop组件吗？

26.Flink 资源管理中 Task Slot 的概念

27.Flink的重启策略都有哪些？

28.Flink中的广播变量，使用时需要注意什么？

29.Flink的内存模型

30.数据倾斜问题

31.Flink连接API

32.Flink-On-Yarn常见的提交模式有哪些，分别有什么优缺点？

33.Flink如何处理迟到数据

34.Flink任务延迟高如何解决

35.Flink Operator Chains

36.Flink什么情况下才会把Operator chain在一起形成算子链？

37.Flink中应用在tableAPI中的UDF有几种？