- 简单介绍一下Flink?相比较传统的Spark Streaming 区别?
1、简单介绍一下Flink?
Flink是一个框架和分布式处理引擎,用于处理有界和无界的数据流进行有状态计算,flink还提供了数据分布、容错机制和资源管理等核心功能。
- Flink VS Spark
数据处理架构:
Spark是批处理,即使是处理实时数据,在Spark中的说法的微批处理。
Flink 是流处理,处理批数据声明为有界数据流,流处理是处理无界数据流。
运行时架构:
Spark是批计算,将DAG划分成不同的stage,一个完成之后才能计算下一个。
Flink是标准的流执行模式,一个事件在一个节点处理后直接发往下一个节点进行处理
时间机制:
Spark只支持处理时间。
Flink支持事件时间、处理时间、注入时间,同时也支持watermark机制来处理滞后的数据。
- Flink的组件栈有哪些?各自的作用?公司的flink集群规模多大?
Flink分层架构,从上到下一次层:API&Libraries、RunTime核心层和物理部署层
Deploy 层:该层主要涉及了Flink的部署模式,在上图中我们可以看出,Flink 支持包括local、Standalone、Cluster、Cloud等多种部署模式。