一、hadoop学习总结
1、原理
hadoop是通过RPC协议进行通信的,分为两大组件分别是 HDFS和MapReduce。其中HDFS负责海量数据的存储MapReduce
负责海量数据的分析计算,MapReduce运行在YAM 上
2、HDFS
HDFS(分布式文件系统)有上级节点NameNode和下级节点DataNode ,其中NameNode是管理节点负责任务的分配(分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求),
NameNode中存放的是DataNode节点信息不存储真正的数据。 DataNode是真正干活的节点,也就是存储数据的节点,DataNode中的数据都是以block(大小是128M)块进行
没个block块在集群上都会存储多个副本副本数量可以在hdfs-site.xml中进行配置 block块的大小也可以进行配置
存储的。
3、MapReduce
MapReduce是运行在Yam上的所以YAM的上级节点是ResourceManager负责管理整个集群资源,主要用于向每个job分配计算资源,一个集群只有一个ResourceManager。
NodeManager通过该RPC协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态(这里面用到了一个机制心跳机制)
NodeManager负责计算分析 NodeManager周期性主动地向ResourceManager发起请求,并且领取下达给自己的命令
4、MapReduce在代码中体现为Map和Reduce Map阶段和Reduce都是以KEY VALUE键值对形式进行传输,通过JOB向集群进行作业提交 一个job将会分为多个Task执行 (task是集群中最小可执行单位)
5、ApplicationMaster
ApplicationMaster 监控每一个job执行情况,包括资源申请和TASK调度等
1、原理
hadoop是通过RPC协议进行通信的,分为两大组件分别是 HDFS和MapReduce。其中HDFS负责海量数据的存储MapReduce
负责海量数据的分析计算,MapReduce运行在YAM 上
2、HDFS
HDFS(分布式文件系统)有上级节点NameNode和下级节点DataNode ,其中NameNode是管理节点负责任务的分配(分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求),
NameNode中存放的是DataNode节点信息不存储真正的数据。 DataNode是真正干活的节点,也就是存储数据的节点,DataNode中的数据都是以block(大小是128M)块进行
没个block块在集群上都会存储多个副本副本数量可以在hdfs-site.xml中进行配置 block块的大小也可以进行配置
存储的。
3、MapReduce
MapReduce是运行在Yam上的所以YAM的上级节点是ResourceManager负责管理整个集群资源,主要用于向每个job分配计算资源,一个集群只有一个ResourceManager。
NodeManager通过该RPC协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态(这里面用到了一个机制心跳机制)
NodeManager负责计算分析 NodeManager周期性主动地向ResourceManager发起请求,并且领取下达给自己的命令
4、MapReduce在代码中体现为Map和Reduce Map阶段和Reduce都是以KEY VALUE键值对形式进行传输,通过JOB向集群进行作业提交 一个job将会分为多个Task执行 (task是集群中最小可执行单位)
5、ApplicationMaster
ApplicationMaster 监控每一个job执行情况,包括资源申请和TASK调度等