Flink概述

最新推荐文章于 2023-12-28 18:25:51 发布

不稳定记忆

最新推荐文章于 2023-12-28 18:25:51 发布

阅读量209

点赞数

分类专栏： Flink 文章标签： Flink概述

原文链接：https://blog.csdn.net/weixin_41186141/article/details/88560262

版权

Flink 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1. Flink的优势，以及选择Flink的理由

在典型的大数据的业务场景下数据业务最通用的做法是：选用批处理的技术处理全量数据，采用流式计算处理实时增量数据。在绝大多数的业务场景之下，用户的业务逻辑在批处理和流处理之中往往是相同的。但是，用户用于批处理和流处理的两套计算引擎是不同的。

2. 目前开源大数据计算引擎

流计算如Storm,Samza,Flink,Kafka Stream等

批处理如Spark,Hive,Pig,Flink等。

而同时支持流处理和批处理的计算引擎，只有两种选择：一个是Apache Spark，一个是Apache Flink。

3. Flink和sparkStreaming的区别

Spark的技术理念是基于批来模拟流的计算。（有局限性，且局限性很难突破，最多0.5秒发送一次，数据延迟较多）

Flink则完全相反，它采用的是基于流计算来模拟器批计算。

4. Flink的特点

特点：低延迟，高吞吐，统一的大数据计算引擎。

性能：Flink的计算平台可以实现毫秒级的延迟情况下，每秒钟处理上亿次的消息或者事件。

Flink提供了一个Exactly-once的一致性语义。保证数据的正确性，使得flink大数据引擎可以提供金融级的数据处理能力

5. Flink可以和什么整合

Flink计算平台运行在Hadoop集群之上。采用Hadoop的yarn资源管理调度，以hdfs作为数据存储。因此flink可以和Hadoop无缝对接

6. Flink的表现

Flink在阿里巴巴的大规模应用

规模：一个系统是否成熟，规模是重要指标，Flink最初上线阿里巴巴只有数百台服务器，目前规模已达上万台，此等规模在全球范围内也是屈指可数；

状态数据：基于Flink，内部积累起来的状态数据已经是PB级别规模；

Events：如今每天在Flink的计算平台上，处理的数据已经超过万亿条；

PS：在峰值期间可以承担每秒超过4.72亿次的访问，最典型的应用场景是阿里巴巴双11大屏；

7. Flink提供的功能

不仅是一个高吞吐，低延迟的计算引擎
提高了很多高级功能
有状态的计算
支持状态管理
支持强一致性的数据语义
支持Event Time，WaterMark对消息乱序的处理
8. Flink核心概念以及基本理念

Flink最区别于其他流计算引擎的，其实就是状态管理。

什么是状态？例如开发一套流计算的系统或者任务做数据处理，可能经常要对数据进行统计，如Sum,Count,Min,Max,这些值是需要存储的。因为要不断更新，这些值或者变量就可以理解为一种状态。如果数据源是在读取Kafka,RocketMQ，可能要记录读取到什么位置，并记录Offset，这些Offset变量都是要计算的状态。

Flink提供了内置的状态管理，可以把这些状态存储在Flink内部，而不需要把它存储在外部系统。这样做的好处是第一降低了计算引擎对外部系统的依赖以及部署，使运维更加简单；第二，对性能带来了极大的提升：如果通过外部去访问，如Redis,HBase它一定是通过网络及RPC。如果通过Flink内部去访问，它只通过自身的进程去访问这些变量。同时Flink会定期将这些状态做Checkpoint持久化，把Checkpoint存储到一个分布式的持久化系统中，比如HDFS。这样的话，当Flink的任务出现任何故障时，它都会从最近的一次Checkpoint将整个流的状态进行恢复，然后继续运行它的流处理。对用户没有任何数据上的影响。

Flink内置状态管理 ->
将状态定期做checkpoint持久化到HDFS**
Flink任务出现故障时，从最近一次checkpoint将整个流的状态进行恢复，继续处理
9. Flink是如何做到在Checkpoint恢复过程中没有任何数据的丢失和数据的冗余？来保证精准计算的？

这其中原因是Flink利用了一套非常经典的Chandy-Lamport算法，它的核心思想是把这个流计算看成一个流式的拓扑，定期从这个拓扑的头部Source点开始插入特殊的Barries，从上游开始不断的向下游广播这个Barries。每一个节点收到所有的Barries,会将State做一次Snapshot，当每个节点都做完Snapshot之后，整个拓扑就算完整的做完了一次Checkpoint。接下来不管出现任何故障，都会从最近的Checkpoint进行恢复。

Flink利用这套经典的算法，保证了强一致性的语义。这也是Flink与其他无状态流计算引擎的核心区别。

10. Flink是如何解决乱序问题的

所有消息到来的时间，和它真正发生在源头，在线系统Log当中的时间是不一致的。在流处理当中，希望是按消息真正发生在源头的顺序进行处理，不希望是真正到达程序里的时间来处理。Flink提供了Event Time和WaterMark的一些先进技术来解决乱序的问题。使得用户可以有序的处理这个消息。这是Flink一个很重要的特点。

11. 阿里巴巴对Flink做的贡献

重构了Flink的分布式架构，将Flink的Job调度和资源管理做了一个清晰的分层和解耦。这样做的首要好处是Flink可以原生的跑在各种不同的开源资源管理器上。经过这套分布式架构的改进，Flink可以原生地跑在Hadoop Yarn和Kubernetes这两个最常见的资源管理系统之上。同时将Flink的任务调度从集中式调度改为了分布式调度，这样Flink就可以支持更大规模的集群，以及得到更好的资源隔离。
另一个是实现了增量的Checkpoint机制，因为Flink提供了有状态的计算和定期的Checkpoint机制，如果内部的数据越来越多，不停地做Checkpoint,Checkpoint会越来越大，最后可能导致做不出来。提供了增量的Checkpoint后，Flink会自动地发现哪些数据是增量变化，哪些数据是被修改了。同时只将这些修改的数据进行持久化。这样Checkpoint不会随着时间的运行而越来越难做，整个系统的性能会非常地平稳，这也是我们贡献给社区的一个很重大的特性。
12. FLink的API

Flink有2套基础的API，一套是DataStream，一套是DataSet。DataStream API是针对流式处理的用户提供，DataSet API是针对批处理用户提供

不稳定记忆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink概述

1. Flink的优势，以及选择Flink的理由在典型的大数据的业务场景下数据业务最通用的做法是：选用批处理的技术处理全量数据，采用流式计算处理实时增量数据。在绝大多数的业务场景之下，用户的业务逻辑在批处理和流处理之中往往是相同的。但是，用户用于批处理和流处理的两套计算引擎是不同的。2. 目前开源大数据计算引擎流计算如Storm,Samza,Flink,Kafka ...
复制链接

扫一扫

专栏目录