【Spark系列】：多方面综合对比Spark Streaming和Flink

最新推荐文章于 2024-07-13 10:06:08 发布

hxcaifly

最新推荐文章于 2024-07-13 10:06:08 发布

阅读量1.6k

点赞数 12

分类专栏： Flink Spark

本文链接：https://blog.csdn.net/hxcaifly/article/details/85916372

版权

本文对比了Spark Streaming和Flink在运行角色、编程模型、任务调度、时间机制、Kafka动态分区检测、容错机制及处理语义、背压等方面的特点。Spark Streaming基于微批处理，而Flink则是事件驱动的实时处理引擎。两者在任务调度上有明显区别，Spark Streaming的调度更加灵活，而Flink的任务调度更为固定。在时间机制上，Flink支持事件时间、注入时间和处理时间，而Spark Streaming主要支持处理时间。此外，Flink在动态分区检测、容错机制和背压处理上提供了更强大的支持。

摘要由CSDN通过智能技术生成

文章目录

前言
1. 基本概念对比
- 1.1. 运行角色
- 1.2. 运行过程简述
- 1.3. 生态
- 1.4. 运行模型
2. 编程模型对比
- 2.1. Spark Streaming
- 2.2. Flink
3. 任务调度原理
- 3.1. Spark 任务调度
- 3.2. Flink 任务调度
4. 时间机制对比
- ４.１.流处理的时间
- 4.2. Spark 时间机制
- 4.3. Flink 时间机制
5. 维表实现及异步io
6. 状态管理
7. join操作
- 7.1. Flink的join操作
- 7.2. Structured Streaming的join操作
8. kafka 动态分区检测
- 8.1. Spark Streaming
- - Spark Streaming 与 kafka 0.8 版本结合
  - Spark Streaming 与 kafka 0.10 版本结合
- 8.2. Flink
9. 容错机制及处理语义
- 9.1. Spark Streaming 保证仅一次处理
- 9.2. Flink 与 kafka 0.11 保证仅一次处理
10. 背压
- 10.1. Spark Streaming 的背压
- 10.2. Flink 的背压
11.表管理
推荐阅读

前言

flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。

本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Stream 与 Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发。

1. 基本概念对比

1.1. 运行角色

Spark Streaming 运行时的角色(standalone 模式)主要有：

Master:主要负责整体集群资源的管理和应用程序调度；
Worker:负责单个节点的资源管理，driver 和 executor 的启动等；
Driver:用户入口程序执行的地方，即 SparkContext 执行的地方，主要是 DAG 生成、stage 划分、task生成及调度；
Executor:负责执行 task，反馈执行状态和执行结果。

Flink 运行时的角色(standalone 模式)主要有:

Jobmanager: 协调分布式执行，他们调度任务、协调 checkpoints、协调故障恢复等。至少有一个JobManager。高可用情况下可以启动多个 JobManager，其中一个选举为 leader，其余为 standby；
Taskmanager: 负责执行具体的 tasks、缓存、交换数据流，至少有一个 TaskManager；
Slot: 每个 task slot 代表 TaskManager 的一个固定部分资源，Slot 的个数代表着 taskmanager可并行执行的 task 数。

1.2. 运行过程简述

Structured Streaming 周期性或者连续不断的生成微小dataset，然后交由Spark SQL的增量引擎执行，跟Spark Sql的原有引擎相比，增加了增量处理的功能，增量就是为了状态和流表功能实现。由于是也是微批处理，底层执行也是依赖Spark SQL的。

Flink 中的执行图可以分成四层：StreamGraph-> JobGraph -> ExecutionGraph -> 物理执行图。细分:

StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。
JobGraph： StreamGraph经过优化后生成了JobGraph，提交给 JobManager的数据结构。主要的优化为，将多个符合条件的节点 chain在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。这个可以用来构建自己的自己的集群任务管理框架。
ExecutionGraph： JobManager 根据 JobGraph 生成的分布式执行图，是调度层最核心的数据结构。
物理执行图： JobManager 根据ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署
Task 后形成的“图”，并不是一个具体的数据结构。

1.3. 生态

直接参见官网的介绍图：
在这里插入图片描述

在这里插入图片描述

1.4. 运行模型

Spark Streaming 是微批处理，运行的时候需要指定批处理的时间，每次运行 job 时处理一个批次的数据，流程如图 3 所示：
在这里插入图片描述

Flink 是基于事件驱动的，事件可以理解为消息。事件驱动的应用程序是一种状态应用程序，它会从一个或者多个流中注入事件，通过触发计算更新状态，或外部动作对注入的事件作出反应。（也可以基于时间进行处理）。
在这里插入图片描述

2. 编程模型对比

编程模型对比，主要是对比 flink 和 Spark Streaming 两者在代码编写上的区别。整体来说：两者的编程模型基本一致吧，都是链式调用。

2.1. Spark Streaming

Spark Streaming 与 kafka 的结合主要是两种模型：

基于 receiver dstream；
基于 direct dstream。

以上两种模型编程机构近似，只是在 api 和内部数据获取有些区别，新版本的已经取消了基于 receiver 这种模式，企业中通常采用基于 direct Dstream 的模式。

val Array(brokers, topics) = args//    创建一个批处理时间是2s的context    
   val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")    
   val ssc = new StreamingContext(sparkConf, Seconds(2))    
   //    使用broker和topic创建DirectStream    
   val topicsSet = topics.split(",").toSet    
   val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)    
   val messages = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent,    ConsumerStrategies.Subscribe[String, String](topicsSet, kafkaParams))  
     // Get the lines, split them into words, count the words and print    
   val lines = messages.map(_.value)    
   val words = lines.flatMap(_.split(" "))    
   val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)   
    wordCounts.print()     //    启动流    
   ssc.start()    
   ssc.awaitTermination()

通过以上代码我们可以 get 到：

设置批处理时间
创建数据流
编写transform
编写action
启动执行

2.2. Flink

接下来看 flink 与 kafka 结合是如何编写代码的。Flink 与 kafka 结合是事件驱动，大家可能对此会有疑问，消费 kafka 的数据调用 poll 的时候是批量获取数据的(可以设置批处理大小和超时时间)，这就不能叫做事件触发了。而实际上，flink 内部对 poll 出来的数据进行了整理，然后逐条 emit，形成了事件触发的机制。下面的代码是 flink 整合 kafka 作为 data source 和 data sink：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.getConfig().disableSysoutLogging();
env.getConfig().setRestartStrategy(RestartStrategies.fixedDelayRestart(4, 10000));
env.enableCheckpointing(5000); // create a checkpoint every 5 seconds
env.getConfig().setGlobalJobParameters(parameterTool); // make parameters available in the web interface
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);    
//    ExecutionConfig.GlobalJobParameters
env.getConfig().setGlobalJobParameters(null);    DataStream<KafkaEvent> input = env
           .addSource(new FlinkKafkaConsumer010<>(
                   parameterTool.getRequired("input-topic"),                    new KafkaEventSchema(),parameterTool.getProperties())
               .assignTimestampsAndWatermarks(new CustomWatermarkExtractor())).setParallelism(1).rebalance()
           .keyBy("word")
           .map(new RollingAdditionMapper()).setParallelism(0);
   
input.addSink(new FlinkKafkaProducer010<>(
                   parameterTool.getRequired("output-topic"),                    new KafkaEventSchema(),
                   parameterTool.