比拼生态和未来，Spark和Flink哪家强？

最新推荐文章于 2024-05-19 20:58:38 发布

java1856905

最新推荐文章于 2024-05-19 20:58:38 发布

阅读量1.7k

点赞数 1

分类专栏： activeMQ maven netty rabbitMQ dockerhub Tomcat 文章标签： Spark Flink 程序员

本文链接：https://blog.csdn.net/java1856905/article/details/83064942

版权

本文对比了Apache Spark和Flink在大数据处理领域的生态和未来发展趋势。Spark以其强大的社区和统一分析平台占据优势，尤其在机器学习集成方面。而Flink则在流处理上表现出色，有望在实时处理领域建立核心竞争力。两者都在努力成为下一代大数据引擎的领导者。

摘要由CSDN通过智能技术生成

概况
在这里插入图片描述
Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。今年 6 月的 Spark+AI 峰会参加人数超过 4000。 Spark 因为在引擎方面比 MapReduce 全面占优，经过几年发展和 Hadoop 生态结合较好，已经被广泛视为 Hadoop MapReduce 引擎的取代者。

在这里插入图片描述
Flink 也是 Apache 顶级项目，创始者们成立了 Data Artisans。社区规模还无法和 Spark 相比。不过在业界，特别是流处理方面，有不错的口碑。在大规模流处理方面走在最前沿，也是需求最强的几个美国公司，包括 Netflix、 LinkedIn、Uber、Lyft 等，除 LinkedIn 有自己的 Samza 外，都已经采用 Flink 作为流处理引擎或者有了较大投入。

阿里集团在 Flink 社区也有较大影响力。最近 Flink 1.3 到 1.5 里都有几个重磅功能是阿里和 Data Artisans 合作或者独立开发的。阿里还有可能是世界上最大的流计算集群，也是在 Flink 的基础上开发的。

Unified Analytic platform
最近的 Spark+AI 峰会上， Databricks 主打的主题是统一分析平台（Unified Analytics Platform）。三大新发布：Databricks delta、Databricks Runtime for ML和 ML flow，都是围绕这一主题。随着近年来机器学习（包括深度学习）在数据处理中占比越来越高，可以说 Databricks 又一次把握住了时代的脉搏。

统一分析平台回应了 Spark 的初衷。经过几年的探索，对初始问题，即用户可以在一个系统里解决绝大部分大数据的需求，有了一个比较明确具体的解决方案。

最低0.47元/天解锁文章

java1856905

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
比拼生态和未来，Spark和Flink哪家强？

概况Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。今年 6 月的 Spark+AI 峰会参加人数超过 4000。 Spark 因为在引擎方面比 MapReduce 全面占优，经过几年发展和 Hadoop 生态结合较好，已经被广...
复制链接

扫一扫

专栏目录