Flink基本原理与应用场景

最新推荐文章于 2024-10-13 18:14:11 发布

weixin_33736649

最新推荐文章于 2024-10-13 18:14:11 发布

阅读量254

点赞数

文章标签：大数据内存管理 java

原文链接：https://juejin.im/post/5caf091d5188251b1224909f

版权

Flink是一款高性能、高可用的开源分布式流处理框架，支持实时流处理和批处理，具备流式优先、容错、可伸缩及高吞吐低延迟特性。其架构分为部署、核心及API层面，支持事件处理、表操作、机器学习和图计算等功能。

摘要由CSDN通过智能技术生成

Flink是一个开源的分布式，高性能，高可用，准确的流处理框架。主要由Java代码实现，支持实时流处理和批处理，批数据只是流数据的一个极限案例。支持了迭代计算，内存管理和程序优化。

重点记得Flink是一个流处理框架，支持实时处理。

图片的左边是数据来源，右边是数据可以输出到什么地方

Flink是一个分层次的系统。

看下Flink到底有哪些组件

流处理系统与批处理系统最大不同在于节点间的数据传输方式，这两种数据传输模式是两个极端，对应的是流处理系统对低延迟的要求和批处理系统对高吞吐量的要求。

对于一个流处理系统，其节点间数据传输的标准模型是：当一条数据被处理完成后，序列化到缓存中，然后立刻通过网络传输到下一个节点，由下一个节点继续处理
而对于一个批处理系统，其节点间数据传输的标准模型是：当一条数据被处理完成后，序列化到缓存中，并不会立刻通过网络传输到下一个节点，当缓存写满，就持久化到本地硬盘上，当所有数据都被处理完成后，才开始将处理后的数据通过网络传输到下一个节点

Flink的执行引擎同时支持了这两种数据传输模型

Flink以固定的缓存块为单位进行网络数据传输，用户可以通过设置缓存块超时值指定缓存块的传输时机。如果缓存块的超时值为0，则Flink的数据传输方式类似上文所提到流处理系统的标准模型，此时系统可以获得最低的处理延迟
如果缓存块的超时值为无限大，则Flink的数据传输方式类似上文所提到批处理系统的标准模型，此时系统可以获得最高的吞吐量
同时缓存块的超时值也可以设置为0到无限大之间的任意值。缓存块的超时阈值越小，则Flink流处理执行引擎的数据处理延迟越低，但吞吐量也会降低，反之亦然。通过调整缓存块的超时阈值，用户可根据需求灵活地权衡系统延迟和吞吐量