与Flink打交道（1）——初识

最新推荐文章于 2024-07-25 20:48:29 发布

Li_yi_chao

最新推荐文章于 2024-07-25 20:48:29 发布

阅读量109

点赞数

分类专栏：大数据文章标签： flink

本文链接：https://blog.csdn.net/Li_yi_chao/article/details/114656363

版权

3 篇文章 0 订阅

订阅专栏

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似，两者都希望提供一个统一功能的计算平台给用户，都在尝试建立一个统一的平台以运行批量，流式，交互式，图处理，机器学习等应用。

来历：2014年后迅速成为Apache 的顶级项目之一

特点：流处理：低延迟、Exactly-once保证；批处理：高吞吐、高效处理

优势：

——YARN 通用的资源管理系统，进行资源调度

Flink分布式运行环境

基本架构

Flink是基本Master-Slave风格的架构，Flink集群启动时，会启动一个JobManager进程、至少一个TaskManager进程

JobManager：Flink系统的协调者，负责接收Flink Job，调度组成Job的多个Task执行收集job的状态信息，并管理Flink集群中从节点TaskManager
TaskManager：负责执行计算的Worker，在其上执行Flink Job的一组Task；TaskManager负责管理其所在节点上的资源信息。内存、磁盘、网络，在启动时候将资源的状态向JobManager汇报
Client ：用户提交一个Flink程序时，会先创建一个Client，它对用户提交的Flink程序进行处理，组装一个jobGraph，并以jobGraph的形式提交到Flink集群

Flink程序的基础构建模块是流（streams）与转换（transformations）,每个数据流始于一个或多个source,至于一个或多个sink

流——>输入（窗口数据）；转换——>对数据的具体操作（map、reduce）

Flink的常用算子

DataStream

关注

专栏目录