大数据处理引擎Spark与Flink大比拼

最新推荐文章于 2024-05-19 20:58:38 发布

大数据Arry

最新推荐文章于 2024-05-19 20:58:38 发布

阅读量1.5k

点赞数 1

分类专栏：大数据大数据资讯人工智能互联网资讯文章标签：大数据数据分析程序员编程语言

本文链接：https://blog.csdn.net/arry001/article/details/89765190

版权

本文探讨了大数据处理引擎Spark与Flink的异同，指出Spark以统一引擎支持多种场景，而Flink凭借优秀的流处理能力成为挑战者。尽管Spark在实时处理上存在延迟问题，但通过引入持续执行模式进行改进。Flink则以其流处理引擎和托管状态在有状态处理上表现出色。

摘要由CSDN通过智能技术生成

　下一代大数据计算引擎

　　自从数据处理需求超过了传统数据库能有效处理的数据量之后，Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始，经过近 10 年的发展，基于 Hadoop 开源生态或者其它相应系统的海量数据处理已经成为业界的基本需求。

　　但是，很多机构在开发自己的数据处理系统时都会发现需要面临一系列的问题。从数据中获取价值需要的投入远远超过预期。常见的问题包括：

　　非常陡峭的学习曲线。刚接触这个领域的人经常会被需要学习的技术的数量砸晕。不像经过几十年发展的数据库一个系统可以解决大部分数据处理需求，Hadoop 等大数据生态里的一个系统往往在一些数据处理场景上比较擅长，另一些场景凑合能用，还有一些场景完全无法满足需求。结果就是需要好几个系统来处理不同的场景。

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

　　上图是一个典型的 lambda 架构，只是包含了批处理和流处理两种场景，就已经牵涉到至少四五种技术了，还不算每种技术的可替代选择。再加上实时查询、交互式分析、机器学习等场景，每个场景都有几种技术可以选择，每个技术涵盖的领域还有不同方式的重叠。结果就是一个业务经常需要使用四五种以上的技术才能支持好一个完整的数据处理流程。加上调研选型，需要了解的数目还要多得多。

　　下图是大数据领域的全景。晕了没?

2019大数据和 AI 全景

　　开发和运行效率低下。因为牵涉到多种系统，每种系统有自己的开发语言和工具，开发效率可想而知。而因为采用了多套系统，数据需要在各个系统之间传输，也造成了额外的开发和运行代价，数据的一致也难以保证。在很多机构，实际上一半以上的开发精力花在了数据在各个系统之间的传输上。

　　复杂的运维。多个系统，每个需要自己的运维，带来更高的运维代价的同时也提高了系统出问题的可能。

　　数据质量难以保证。数据出了问题难以跟踪解决。

　　最后，还有人的问题。在很多机构，由于系统的复杂性，各个子系统的支持和使用落实在不同部门负责。

　　了解了这些问题以后