大数据计算引擎MapReduce、Storm、Spark、Sparkstreaming、Flink到底哪家强？

最新推荐文章于 2024-09-05 23:07:21 发布

AI课工场

最新推荐文章于 2024-09-05 23:07:21 发布

阅读量979

点赞数

本文链接：https://blog.csdn.net/kgc_cn/article/details/112177141

版权

本文对比分析了大数据计算引擎MapReduce、Storm、Spark、Sparkstreaming和Flink。MapReduce是大数据处理的先驱，Spark作为升级版解决了复杂计算和磁盘性能问题。Storm是早期实时计算框架，面临高可用性和数据准确性挑战。Sparkstreaming通过小批量处理和exactlyonce机制改进，Flink则引入分布式快照和Window窗口模型，提供更高效实时处理。选择最佳引擎需结合业务需求和成本考虑。

摘要由CSDN通过智能技术生成

自大数据的概念被提出以来，企业对于数据信息变为数据资产的诉求越来越强烈，进而在技术领域出现了很多大数据计算引擎服务，最著名、使用最广的莫过于MapReduce、Storm、Spark、Sparkstreaming、Flink了。它们都是在不同的时代背景下所产生的，又是为了解决每个阶段所不能遇到的难题而新出现的解决方案，那么它们到底是什么呢？我们今天一一的来看看这些计算引擎宝贝们～

从处理的时间来看，我们可以把大数据计算引擎划分为离线计算、实时计算两类，离线计算一般是T+1的延迟，实时计算一般是秒级或毫秒级的延迟；从处理的数据量来看，我们可以把大数据引擎划分为流式计算、批量计算两类，流式计算是一次来一条处理一条，批量计算则是一次来多条处理多条。MapReduce、Spark属于离线计算、批量计算引擎，Storm、Sparkstreaming、Flink属于实时计算、流式与批量并存的计算引擎。

给计算引擎宝贝们分好类之后，我们一个个的来看看它们的绝技。MapReduce是大数据计算引擎的开山鼻祖，自Google著名的三篇论文发表之后，大数据处理开始流行起来，很多企业都使用Hadoop三件套MapReduce、HDFS、YARN来进行大数据的处理任务，所有的数据在进行处理前会划分成大小相同的数据，经过Map模型初次处理数据，得到中间结果，再经过Reduce模型二次处理中间结果数据，最后得到分析数据，存储在HDFS。在该模型中，存在两个问题：

1、模型简单，对于复杂的处理任务不好支持。对于复杂的统计分析任务，在MR模型中就需要经过多次转换成中间结果