spark与flink的区别（五）

最新推荐文章于 2023-12-16 12:55:39 发布

徐小慧_Blog

最新推荐文章于 2023-12-16 12:55:39 发布

阅读量1k

点赞数 2

分类专栏： spark 文章标签： spark flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42073408/article/details/119569116

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

spark与flink的区别

spark系列
Spark运行架构（一）
Spark SQL原理及常用方法详解（二）
Spark性能优化指南——基础篇（三）
Spark性能优化指南——高级篇（四）
spark与flink的区别（五）
Spark 为什么比 Hadoop 快（六）

（1）设计理念

1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。

2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。

（2）架构方面

1、Spark在运行时的主要角色包括：Master、Worker、Driver、Executor。

2、Flink 在运行时主要包含：Jobmanager、Taskmanager和Slot。

（3）任务调度

1、Spark Streaming 连续不断的生成微小的数据批次，构建有向无环图DAG，根据DAG中的action操作形成job，每个job有根据窄宽依赖生成多个stage。

2、Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager进行处理，JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。

（4）时间机制

1、Spark Streaming 支持的时间机制有限，只支持处理时间。使用processing time模拟event time必然会有误差，如果产生数据堆积的话，误差则更明显。

2、flink支持三种时间机制：事件时间，注入时间，处理时间，同时支持 watermark 机制处理迟到的数据,说明Flink在处理乱序大实时数据的时候,更有优势。

（5）容错机制

1、SparkStreaming的容错机制是基于RDD的容错机制，会将经常用的RDD或者对宽依赖加Checkpoint。利用SparkStreaming的direct方式与Kafka可以保证数据输入源的，处理过程，输出过程符合exactly once。

2、Flink 则使用两阶段提交协议来保证exactly once。

（6）吞吐量与延迟

1、spark是基于微批的,而且流水线优化做的很好,所以说他的吞入量是最大的,但是付出了延迟的代价,它的延迟是秒级;

2、而Flink是基于事件的,消息逐条处理,而且他的容错机制很轻量级,所以他能在兼顾高吞吐量的同时又有很低的延迟,它的延迟能够达到毫秒级;

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
spark与flink的区别（五）

spark与flink的区别（1）设计理念（2）架构方面（3）任务调度（4）时间机制（5）容错机制（6）吞吐量与延迟（1）设计理念1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。（2）架构方面1、Spark在运行时的主要角
复制链接

扫一扫

专栏目录

徐小慧_Blog CSDN认证博客专家 CSDN认证企业博客

码龄6年

63: 原创

30万+: 周排名

200万+: 总排名

12万+: 访问

: 等级

974: 积分

106: 粉丝

139: 获赞

75: 评论

821: 收藏

私信

关注

热门文章

分类专栏

Hadoop 1篇
邮件发送 1篇
POI 2篇
数据库 3篇
keepalived 1篇
运维 9篇
Java 领域 5篇
hive 6篇
大数据 8篇
kafka 2篇
hbase 8篇
spark 6篇
开发常见问题 5篇
flink 1篇
flume 2篇
leetcode 4篇

最新评论

Hive SQL - 50道练习题
lzazc: 很好的题！
idea怎么创建python项目
Shen_213: 新建python package的时候，名字为： com.teradata.python。这样才会有三个文件夹，这里补充一下
Hadoop Web 控制台安全认证
报错库: 严格按照要求配置启动hdfs之后，namenode起不来，查看namenode日志，出现明显报错：Caused by: java.lang.ClassNotFoundException: org.mortbay.jetty.webapp.WebAppContext，请问需要额外添加什么依赖吗？
idea 无法创建Scala class 选项解决办法汇总
m0_69035563: 太牛了我哭死
Kafka史上最详细原理总结(一)
轻叔: 我记得kafka 是发布订阅模式啊，但是消息应该是消费者pull过来的吧和您说的那个发布订阅是不是有点不太一样？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。