有关Flink的一些个人总结（是什么-用来做什么-有什么优势-为什么选它-解决了什么问题）

最新推荐文章于 2024-08-06 10:35:08 发布

易逑实战数据

最新推荐文章于 2024-08-06 10:35:08 发布

阅读量4.8k

点赞数 1

本文链接：https://blog.csdn.net/hhfhhf12345678/article/details/125274915

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

前言
一、Flink是什么
二、Flink用来做什么
三、Flink的优势是什么
四、为什么用Flink
五、Flink解决了什么问题
总结

前言

在大数据技术日益发展的今天，涌现出越来越多性能优异的组件，其中Spark和flink是非常重要的部分，尤其是实时任务越来越重要，在此对Flink一些功能特性，包括组成，应用以及优缺点进行相应的总结

一、Flink是什么

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能,现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理。Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。

二、Flink用来做什么

在实际生产的过程中，大量数据在不断地产生，例如金融交易数据、互联网订单数据、GPS定位数据、传感器信号、移动终端产生的数据、通信信号数据等，以及我们熟悉的网络流量监控、服务器产生的日志数据，这些数据最大的共同点就是实时从不同的数据源中产生，然后再传输到下游的分析系统。
针对这些数据类型主要包括以下场景，Flink对这些场景都有非常好的支持。
a.实时智能推荐
利用Flink流计算帮助用户构建更加实时的智能推荐系统，对用户行为指标进行实时计算，对模型进行实时更新，对用户指标进行实时预测，并将预测的信息推送给Web/App端，帮助用户获取想要的商品信息，另一方面也帮助企业提高销售额，创造更大的商业价值。
b.复杂事件处理
例如工业领域的复杂事件处理，这些业务类型的数据量非常大，且对数据的时效性要求较高。我们可以使用Flink提供的CEP（复杂事件处理）进行事件模式的抽取，同时应用Flink的SQL进行事件数据的转换，在流式系统中构建实时规则引擎。
c.实时欺诈检测
在金融领域的业务中，常常出现各种类型的欺诈行为。运用Flink流式计算技术能够在毫秒内就完成对欺诈判断行为指标的计算，然后实时对交易流水进行规则判断或者模型预测，这样一旦检测出交易中存在欺诈嫌疑，则直接对交易进行实时拦截，避免因为处理不及时而导致的经济损失
d.实时数仓与ETL
结合离线数仓，通过利用流计算等诸多优势和SQL灵活的加工能力，对流式数据进行实时清洗、归并、结构化处理，为离线数仓进行补充和优化。另一方面结合实时数据ETL处理能力，利用有状态流式计算技术，可以尽可能降低企业由于在离线数据计算过程中调度逻辑的复杂度，高效快速地处理企业需要的统计结果，帮助企业更好的应用实时数据所分析出来的结果。
e.流数据分析
实时计算各类数据指标，并利用实时结果及时调整在线系统相关策略，在各类投放、无线智能推送领域有大量的应用。流式计算技术将数据分析场景实时化，帮助企业做到实时化分析Web应用或者App应用的各种指标。
f.实时报表分析
实时报表分析说近年来很多公司采用的报表统计方案之一，其中最主要的应用便是实时大屏展示。利用流式计算实时得出的结果直接被推送到前段应用，实时显示出重要的指标变换，最典型的案例就是淘宝的双十一实时战报

三、Flink的优势是什么

a.数据量&吞吐量&延迟性
Flink 的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。
b.支持 Event Time 和乱序事件
Flink 支持了流处理和 Event Time 语义的窗口机制。
Event time 使得计算乱序到达的事件或可能延迟到达的事件更加简单。
c.状态计算的exactly-once语义
流程序可以在计算过程中维护自定义状态。
Flink 的 checkpointing 机制保证了即时在故障发生下也能保障状态的 exactly once 语义。
d.高度灵活的流式窗口
Flink 支持在时间窗口，统计窗口，session 窗口，以及数据驱动的窗口,
窗口可以通过灵活的触发条件来定制，以支持复杂的流计算模式。
e.带反压的连续流模型
数据流应用执行的是不间断的（常驻）operators。
Flink streaming 在运行时有着天然的流控：慢的数据 sink 节点会反压（backpressure）快的数据源（sources）
f.容错性
Flink 的容错机制是基于 Chandy-Lamport distributed snapshots 来实现的。
这种机制是非常轻量级的，允许系统拥有高吞吐率的同时还能提供强一致性的保障。
g.Batch 和 Streaming 一个系统流处理和批处理共用一个引擎
Flink 为流处理和批处理应用公用一个通用的引擎。批处理应用可以以一种特殊的流处理应用高效地运行。
h.内存管理
Flink 在 JVM 中实现了自己的内存管理。
应用可以超出主内存的大小限制，并且承受更少的垃圾收集的开销。
i.迭代和增量迭代
Flink 具有迭代计算的专门支持（比如在机器学习和图计算中）。
增量迭代可以利用依赖计算来更快地收敛。
j.程序调优
批处理程序会自动地优化一些场景，比如避免一些昂贵的操作（如 shuffles 和 sorts），还有缓存一些中间数据。

四、为什么用Flink

I.主要原因
Flink 具备统一的框架处理有界和无界两种数据流的能力
部署灵活，Flink 底层支持多种资源调度器，包括Yarn、Kubernetes 等。Flink 自身带的Standalone 的调度器，在部署上也十分灵活。
极高的可伸缩性，可伸缩性对于分布式系统十分重要，阿里巴巴双11大屏采用Flink 处理海量数据，使用过程中测得Flink 峰值可达17 亿条/秒。
极致的流式处理性能。Flink 相对于Storm 最大的特点是将状态语义完全抽象到框架中，支持本地状态读取，避免了大量网络IO，可以极大提升状态存取的性能。
II.其他原因
a.同时支持高吞吐，低延迟，高性能
b.支持事件时间概念
c.支持有状态计算
d.支持高度灵活的窗口操作
e.基于轻量级分布式快照的容错机制
f.基于JVM实现的独立内存管理
g.SavaPoint保存点
h.灵活的部署方式，支持大规模集群
i.Flink程序内的运行是分布式和并行的
j.丰富的库