很多人认为Spark 将代替 Hadoop MapReduce,成为未来大数据处理发展的方向,MapReduce和Spark之间存在哪些区别?Spark会取代Hadoop吗?大数据技术学习为什么要既要学习Hadoop又要学习Spark?今天就来说说这二者。
Hadoop MapReduce:
一种编程模型,是面向大数据并行处理的计算模型、框架和平台,用于大规模数据集(大于1TB)的并行运算。"Map(映射)"和"Reduce(归约)",是它们的主要思想,MapReduce采用"分而治之"的思想,简单地说,MapReduce就是"任务的分解与结果的汇总"。
Spark:
专为大规模数据处理而设计的快速通用的计算引擎,是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点,Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。
Spark与Hadoop MapReduce
Spark与Hadoop MapReduce在业界有两种说法 :
一是 Spark 将代替 Hadoop MapReduce,成为未来大数据处理发展的方向 ;
二