SparkStreaming和Flink详细对比

最新推荐文章于 2024-09-25 10:36:14 发布

未来大数据工程师

最新推荐文章于 2024-09-25 10:36:14 发布

阅读量1.7k

点赞数 1

文章标签：大数据 spark flink

本文链接：https://blog.csdn.net/qq_43797434/article/details/109993782

版权

本文深入探讨了Spark Streaming和Flink在编程模型、任务调度管理、事件机制、动态分区检测、容错机制及处理语义以及背压机制方面的区别。Spark Streaming基于微批处理，而Flink则是事件驱动的流处理。两者在任务调度、数据处理和容错机制上有显著差异，Flink提供了更强大的事件时间和背压机制。

摘要由CSDN通过智能技术生成

Spark Streaming 和 Flink 详细对比

第一部分编程模型对比

1.1运行角色

Spark Streaming 运行时的角色(standalone 模式)主要有：

1）Master:主要负责整体集群资源的管理和应用程序调度；

2）Worker:负责单个节点的资源管理，driver 和 executor 的启动等；

3）Driver:用户入口程序执行的地方，即 SparkContext 执行的地方，主要是 DAG 生成、stage 划分、task 生成及调度；

4）Executor:负责执行 task，反馈执行状态和执行结果。

Flink 运行时的角色(standalone 模式)主要有:

1）Jobmanager: 协调分布式执行，他们调度任务、协调 checkpoints、协调故障恢复等。至少有一个 JobManager。高可用情况下可以启动多个 JobManager，其中一个选举为 leader，其余为 standby；

2）Taskmanager: 负责执行具体的 tasks、缓存、交换数据流，至少有一个 TaskManager；

3）Slot: 每个 task slot 代表 TaskManager 的一个固定部分资源，Slot 的个数代表着 taskmanager 可并行执行的 task 数。

1.2 生态

sparkstreaming生态

flink生态

1.3运行模式

Spark Streaming 是微批处理，运行的时候需要指定批处理的时间，每次运行 job 时处理一个批次的数据，流程如下图所示：
sparkStreaming运行模型

Flink 是基于事件驱动的，事件可以理解为消息。事件驱动的应用程序是一种状态应用程序，它会从一个或者多个流中注入事件，通过触发计算更新状态，或外部动作对注入的事件作出反应。
flink运行模型

1.4 编程模型

编程模型，主要是对比 flink 和 Spark Streaming 两者在代码编写上的区别。

Spark Streaming 与 kafka 的结合主要是两种模型：

1）基于 receiver dstream；

2）基于 direct dstream。

以上两种模型编程机构近似，只是在 api 和内部数据获取有些区别，新版本的已经取消了基于 receiver 这种模式，企业中通常采用基于 direct Dstream 的模式。

object SparkStreaming04_DirectAuto {
   
  def main(args: Array[String]): Unit = {
   

    val sparkConf: SparkConf = new SparkConf().setAppName("saprkstreaming").setMaster("local[*]")

    val ssc: StreamingContext = new StreamingContext(sparkConf,Seconds(3))

    //3.定义Kafka参数：kafka集群地址、消费者组名称、key序列化、value序列化
    val kafkaPara: Map[String, Object] = Map[String, Object](
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> "hadoop102:9092,hadoop103:9092,hadoop104:9092",
      ConsumerConfig.GROUP_ID_CONFIG -> "test",
      ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG -> "org.apache.kafka.common.serialization.StringDeserializer",
      ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG -> classOf[StringDeserializer]
    )
    val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream(
      ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe