MapReduce简介
MapReduce是一种分布式计算模型,由Google提出,由它编写的应用程序能够运行在超大规模的分布式集群上,并行处理海量的数据集;Map负责数据的映射,Reduce负责将具有相同key值的数据进行统一处理
为什么需要MapReduce
- 单机器由于硬件资源限制,无法处理海量数据
- 单机版程序扩展到集群通过分布式运行,将极大程度增加程序的复杂度和开发难度
- 引入MapReduce后,RD可以集中精力于业务逻辑的开发上,将分布式计算中的复杂度交给框架来处理
MapReduce与MapReduce V2