Flink概述

最新推荐文章于 2024-12-04 17:12:11 发布

若兰幽竹

最新推荐文章于 2024-12-04 17:12:11 发布

阅读量1.5k

点赞数 5

分类专栏： Flink 文章标签： flink

本文链接：https://blog.csdn.net/sujiangming/article/details/124723606

版权

Flink 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Apache Flink是一个开源流处理框架，源自Stratosphere项目，提供高性能、低延迟的数据处理。Flink强调事件驱动和基于流的处理，支持有界和无界数据流，并具备强大的状态管理能力。其特点包括分布式执行、灵活的API、多种部署方式以及对大规模应用的支持。Flink适用于电商、物联网、电信和金融等多个行业，对比Spark Streaming，Flink提供了更实时的流处理模式。

摘要由CSDN通过智能技术生成

Flink概述

一、Flink 是什么

Flink 起源于 Stratosphere 项目， Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目， 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会，参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员， 2014 年 12 月， Flink 一跃成为 Apache 软件基金会的顶级项目。

在德语中， Flink 一词表示快速和灵巧，项目采用一只松鼠的彩色图案作为 logo，这不仅是因为松鼠具有快速和灵巧的特点，还因为柏林的松鼠有一种迷人的红棕色，而 Flink 的松鼠 logo 拥有可爱的尾巴，尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应，也就是说，这是一只 Apache 风格的松鼠。

在这里插入图片描述

Flink 项目的理念是： “ Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架” 。
Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。 Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。

关键概念分解
- 分布式：程序分布于集群中并发执行
- 高性能：拥有内存执行速度及以任意规模来执行计算
- 随时可用：良好的容灾，高可用HA的部署确保Flink集群7x24小时可用
- 有界流：处理的数据处于一个时间范围内，即有开始时间和结束时间。用于微批处理。
- 无界流：处理的数据一旦数据产生后，便源源不断地被处理，有开始无结束。用于实时计算。
- 有状态：被处理地数据及其中间结果将被标记下来，用状态来记录，并缓存状态信息。

二、为什么要用 Flink

能真实反应生活实况且符合当前系统追求的目标
- 流式数据更能真实反应现实生活（实时性好，真实反应当前所属状态）
- 传统的数据架构是基于有限数据集的（类似抽样调查）
- 系统追求的目标
  Ø 低延迟
  Ø 高吞吐
  Ø 结果的准确性和良好的容错性
适配多种行业，应用面广泛
- 电商和市场营销
  Ø 数据报表、广告投放、业务流程需要
- 物联网（IOT）
  Ø 传感器实时数据采集和显示、实时报警，交通运输业
- 电信业
  Ø 基站流量调配
- 银行和金融业
  Ø 实时结算和通知推送，实时检测异常行为
国内大企业争相使用
Flink 的全球热度处于上升趋势，尤其在中国热度最高

三、流处理的演变发展

传统数据处理架构
- 事务处理
- 分析处理
  将数据从业务数据库复制到数仓，再进行分析和查询。如下图所示：
流处理的演变
- lambda 架构
  用两套系统，同时保证低延迟和结果准确，如下图所示：
Flink流式架构涵盖微批和实时分析

四、Flink 的主要特点

事件驱动（Event-driven）
基于流的处理
在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；
实时数据是一个没有界限的流：这就是所谓的有界流和无界流；
分层API，灵活性强
越顶层越抽象，表达含义越简明，使用越方便
越底层越具体，表达能力越丰富，使用越灵活
部署方式多样

Apache Flink是一个分布式系统，需要计算资源才能执行应用程序。Flink集成了所有常见的集群资源管理器，如Hadoop YARN、Apache Mesos和Kubernetes，但也可以设置为作为一个独立的集群运行。Flink的设计可以很好地运行前面列出的每个资源管理器。这是通过特定于资源管理器的部署模式实现的，该模式允许Flink以其惯用的方式与每个资源管理器进行交互。在部署Flink应用程序时，Flink根据应用程序配置的并行性自动识别所需的资源，并从资源管理器请求这些资源。在失败的情况下，Flink通过请求新的资源来替换失败的容器。所有提交或控制应用程序的通信都是通过REST调用进行的。这简化了Flink在许多环境中的集成。
可运行任何规模的应用程序

Flink设计用于在任何规模下运行有状态的流媒体应用程序。应用程序被并行化为可能有数千个任务，这些任务分布在一个集群中并发地执行。因此，应用程序可以利用几乎无限数量的cpu、主内存、磁盘和网络IO。此外，Flink很容易维护非常大的应用程序状态。它的异步和增量检查点算法确保对处理延迟的影响最小，同时保证恰好一次的状态一致性。用户报告了在他们的生产环境中运行的Flink应用程序令人印象深刻的可伸缩性数字，例如应用程序每天处理数万亿次事件，应用程序维护数tb的状态，应用程序运行在数千个核上。
可充分利用内存性能

有状态Flink应用程序针对本地状态访问进行了优化。任务状态总是在内存中维护，如果状态大小超过可用内存，则在访问效率高的磁盘数据结构中维护。因此，任务通过访问本地(通常在内存中)的状态来执行所有的计算，从而产生非常低的处理延迟。Flink通过定期和异步地将本地状态检查点指向持久存储，从而保证了在发生故障时的一次状态一致性。
Flink其他特性
• 支持事件时间（event-time）和处理时间（processing-time）语义
• 精确一次（exactly-once）的状态一致性保证
• 低延迟，每秒处理数百万个事件，毫秒级延迟
• 与众多常用存储系统的连接
• 高可用，动态扩展，实现7*24小时全天候运行

五、Flink vs Spark Streaming

流（stream）和微批（micro-batching）
微批处理模式
本地流处理模式
数据模型
- spark 采用 RDD 模型，spark streaming 的 DStream 实际上也就是一组组小批数
  据 RDD 的集合
- flink 基本数据模型是数据流，以及事件（Event）序列
运行时架构
- Spark 是批计算，将 DAG 划分为不同的 stage，一个完成后才可以计算下一个（stage串行）
- flink 是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理