Hadoop 的四大组件:common、HDFS、MapReduce、YARN
MapReduce:
基于 YARN 的大型数据集并行处理系统。是一种计算模型,用以进行大数据量的计算。Hadoop 的 MapReduce 实现,和 Common、HDFS 一起,构成了 Hadoop 发展初期的三个组件。MapReduce 将应用划分为 Map 和 Reduce 两个步骤,其中 Map 对数据集上的独立元素进行指定的操作,生成键 - 值对形式中间结果。Reduce 则对中间结果中相同 “键” 的所有 “值” 进行规约,以得到最终结果。MapReduce 这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。
YARN:
分布式集群资源管理框架