hadoop的迭代很快,但是大体的上可以划分为hadoop1和hadoop2版本。hadoop2在hadoop1的基础上增加了yarn资源管理器。hadoop1核心模块主要由hdfs和mapreduce组成。hadoop2主要由hdfs、mapreduce和yarn组成。
hadoop项目核心模块:
- hadoop common:主要提供序列化,远程调用rpc,持久化数据结构。
- hdfs:google gfs的开源实现。数据以分块,多副本的形式存储。
- yarn:负责集群资源的管理和统一调度。
- hadoop mapreduce:并行计算框架。