写在开头：Blink开源，Spark3.0，谁才是大数据领域最闪亮的星？

王知无(import_bigdata)

已于 2022-06-30 16:16:45 修改

阅读量3.1k

点赞数 1

分类专栏： Flink高级进阶和企业级应用 Flink系统性学习专栏文章标签：大数据 kafka spark

于 2019-03-13 23:56:09 首次发布

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/88544359

版权

Flink系统性学习专栏同时被 2 个专栏收录

256 篇文章 102 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

Flink高级进阶和企业级应用

43 篇文章 128 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。

最近Spark社区，来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的GPU调度支持，参考（SPARK-24615和SPARK-24579）该方案将填补了Spark在GPU资源的任务调度方面的空白，极大扩展了Spark在深度学习、信号处理的应用场景。

与此同时，2019年1月底，阿里巴巴内部版本Blink正式开源！一石激起千层浪，Blink开源的消息立刻刷爆朋友圈，整个大数据计算领域一直以来由Spark独领风骚，瞬间成为两强争霸的时代。那么未来Spark和Blink的发展会碰撞出什么样的火花？谁会成为大数据实时计算领域最亮的那颗星？

我们接下来看看Spark和Flink各自的优劣和主要区别。

底层机制

Spark的数据模型是弹性分布式数据集 RDD(Resilient Distributed Dattsets)，这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的Spark Streaming是通过将数据流转成批(micro-batches)，即收集一段时间(time-window)内到达的所有数据，并在其上进行常规批处，所以严格意义上，还不能算作流式处理。但是Spark从2.x版本开始推出基于 Continuous Processing Mode的 Structured Streaming，支持按事件时间处理和端到端的一致性࿰

了解本专栏

超级会员免费看

王知无(import_bigdata)

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
写在开头：Blink开源，Spark3.0，谁才是大数据领域最闪亮的星？

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区，来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加......
复制链接

扫一扫