Flink流计算引擎

最新推荐文章于 2024-08-18 22:16:18 发布

Joker_Chou

最新推荐文章于 2024-08-18 22:16:18 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/Joker_Chou/article/details/87802254

版权

Apache Flink是一个支持批处理和流处理的计算引擎，其执行引擎灵活支持低延迟和高吞吐量。Flink提供DataSet、DataStream和Table API供用户编写分布式任务，并具备内置的状态管理系统，利用Chandy-Lamport算法实现强一致性，确保精准计算。

摘要由CSDN通过智能技术生成

伴随着海量增长的数据，数字化时代的未来感扑面而至。不论是结绳记事的小数据时代，还是我们正在经历的大数据时代，计算的边界正在被无限拓宽，而数据的价值再也难以被计算。时下，谈及大数据，不得不提到热门的下一代大数据计算引擎Apache Flink（以下简称Flink）。

统一的批处理与流处理系统

在大数据处理领域，批处理任务与流处理任务一般被认为是两种不同的任务，一个大数据项目一般会被设计为只能处理其中一种任务，例如Apache Storm、Apache Smaza只支持流处理任务，而Aapche MapReduce、Apache Tez、Apache Spark只支持批处理任务。Spark Streaming是Apache Spark之上支持流处理任务的子系统，看似一个特例，实则不然——Spark Streaming采用了一种micro-batch的架构，即把输入的数据流切分成细粒度的batch，并为每一个batch数据提交一个批处理的Spark任务，所以Spark Streaming本质上还是基于Spark批处理系统对流式数据进行处理，和Apache Storm、Apache Smaza等完全流式的数据处理方式完全不同。目前同时支持流处理和批处理的计算引擎，只有两种选择：一个是Apache Spark，一个是Apache Flink。通过其灵活的执行引擎，Flink能够同时支持批处理任务与流处理任务。

在执行引擎这一层，流处理系统与批处理系统最大不同在于节点间的