Hadoop项目的四个模块
- hadoop common(为其他hadoop模块提供基础设施)
- hdfs(一个高可靠,高吞吐量的分布式文件系统)
- mapreduce(一个分布式离线的并行计算框架)
- yarn(任务调度和资源管理)
HDFS系统架构图
服务功能介绍
Namenode:主节点,存储文件的元数据(文件名,目录结构,属性,块列表,块所在的datanode)
Datanode:本地文件系统中存储文件块数据,以及块数据的校验和
Secondarynamenode:监控hdfs状态辅助后台程序,定期获取hdfs元数据的快照
Yarn的架构图
Yarn服务功能
Mapreduce(离线计算框架)
Yarn对mapreduce资源的调度过程