Fink入门介绍

最新推荐文章于 2025-04-06 21:53:10 发布

北山璎珞

最新推荐文章于 2025-04-06 21:53:10 发布

阅读量2.1w

点赞数 10

分类专栏： Flink 文章标签： Flink介绍

本文链接：https://blog.csdn.net/beishanyingluo/article/details/107268337

版权

Flink 专栏收录该内容

14 篇文章

订阅专栏

1. Flink介绍

1.1. Flink引入

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。

在国外一些社区，有很多人将大数据的计算引擎分成了4 代，当然也有很多人不会认同。我们先姑且这么认为和讨论。

第1代——Hadoop MapReduce

批处理
Mapper、Reducer

Hadoop的MapReduce将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个Job的串联，以完成一个完整的算法，例如迭代计算。

第2代——DAG框架（Tez） + MapReduce

批处理
1个Tez = MR(1) + MR(2) + … + MR(n)
相比MR效率有所提升

在这里插入图片描述

第3代——Spark

批处理、流处理、SQL高层API支持
自带DAG
内存迭代计算、性能较之前大幅提升

第4代——Flink

批处理、流处理、SQL高层API支持
自带DAG
流式计算性能更高、可靠性更高

1.2. 什么是Flink

Flink概述:

分布式的计算引擎
支持批处理，即处理静态的数据集、历史的数据集
支持流处理，即实时地处理一些实时数据流
支持基于事件的应用【比如说滴滴通过Flink CEP实现实时监测司机的行为流来判断司机的行为是否正当】

官网地址: https://flink.apache.org/

官网介绍:

在这里插入图片描述

Stateful Computations over Data Streams，即数据流上的有状态的计算。

Data Streams ，Flink认为有界数据集是无界数据流的一种特例，所以说有界数据集也是一种数据流，事件流也是一种数据流。Everything is streams，即Flink可以用来处理任何的数据，可以支持批处理、流处理、AI、MachineLearning等等。
Stateful Computations，即有状态计算。有状态计算是最近几年来越来越被用户需求的一个功能。比如说一个网站一天内访问UV数，那么这个UV数便为状态。Flink提供了内置的对状态的一致性的处理，即如果任务发生了Failover，其状态不会丢失、不会被多算少算，同时提供了非常高的性能。

无界流：意思很明显，只有开始没有结束。必须连续的处理无界流数据，也即是在事件注入之后立即要对其进行处理。不能等待数据到达了再去全部处理，因为数据是无界的并且永远不会结束数据注入。处理无界流数据往往要求事件注入的时候有一定的顺序性，例如可以以事件产生的顺序注入，这样会使得处理结果完整。

有界流：也即是有明确的开始和结束的定义。有界流可以等待数据全部注入完成了再开始处理。注入的顺序不是必须的了，因为对于一个静态的数据集，我们是可以对其进行排序的。有界流的处理也可以称为批处理。

其它特点:

性能优秀(尤其在流计算领域)
高可扩展性
支持容错
纯内存式的计算引擎，做了内存管理方面的大量优化
支持eventime的处理
支持超大状态的Job(在阿里巴巴中作业的state大小超过TB的是非常常见的)
支持exactly-once的处理。

Stateful Computations over Data Streams，即数据流上的有状态的计算。

Data Streams ，Flink认为有界数据集是无界数据流的一种特例，所以说有界数据集也是一种数据流，事件流也是一种数据流。Everything is streams，即Flink可以用来处理任何的数据，可以支持批处理、流处理、AI、MachineLearning等等。
Stateful Computations，即有状态计算。有状态计算是最近几年来越来越被用户需求的一个功能。比如说一个网站一天内访问UV数，那么这个UV数便为状态。Flink提供了内置的对状态的一致性的处理，即如果任务发生了Failover，其状态不会丢失、不会被多算少算，同时提供了非常高的性能。