自大数据的概念被提出以来,企业对于数据信息变为数据资产的诉求越来越强烈,进而在技术领域出现了很多大数据计算引擎服务,最著名、使用最广的莫过于MapReduce、Storm、Spark、Sparkstreaming、Flink了。它们都是在不同的时代背景下所产生的,又是为了解决每个阶段所不能遇到的难题而新出现的解决方案,那么它们到底是什么呢?我们今天一一的来看看这些计算引擎宝贝们~
从处理的时间来看,我们可以把大数据计算引擎划分为离线计算、实时计算两类,离线计算一般是T+1的延迟,实时计算一般是秒级或毫秒级的延迟;从处理的数据量来看,我们可以把大数据引擎划分为流式计算、批量计算两类,流式计算是一次来一条处理一条,批量计算则是一次来多条处理多条。MapReduce、Spark属于离线计算、批量计算引擎,Storm、Sparkstreaming、Flink属于实时计算、流式与批量并存的计算引擎。
给计算引擎宝贝们分好类之后,我们一个个的来看看它们的绝技。MapReduce是大数据计算引擎的开山鼻祖,自Google著名的三篇论文发表之后,大数据处理开始流行起来,很多企业都使用Hadoop三件套MapReduce、HDFS、YARN来进行大数据的处理任务,所有的数据在进行处理前会划分成大小相同的数据,经过Map模型初次处理数据,得到中间结果,再经过Reduce模型二次处理中间结果数据,最后得到分析数据,存储在HDFS。在该模型中,存在两个问题:
1、模型简单,对于复杂的处理任务不好支持。对于复杂的统计分析任务,在MR模型中就需要经过多次转换成中间结果