hadoop学习总结

最新推荐文章于 2024-05-01 17:24:41 发布

qq_16927377

最新推荐文章于 2024-05-01 17:24:41 发布

阅读量325

点赞数

本文链接：https://blog.csdn.net/qq_16927377/article/details/80571133

版权

一、hadoop学习总结
1、原理
hadoop是通过RPC协议进行通信的，分为两大组件分别是 HDFS和MapReduce。其中HDFS负责海量数据的存储MapReduce
负责海量数据的分析计算，MapReduce运行在YAM 上

2、HDFS
HDFS(分布式文件系统)有上级节点NameNode和下级节点DataNode ,其中NameNode是管理节点负责任务的分配（分别是(1)管理元数据 (2)维护目录树 (3)响应客户请求），
NameNode中存放的是DataNode节点信息不存储真正的数据。 DataNode是真正干活的节点，也就是存储数据的节点，DataNode中的数据都是以block（大小是128M）块进行
没个block块在集群上都会存储多个副本副本数量可以在hdfs-site.xml中进行配置 block块的大小也可以进行配置
存储的。
3、MapReduce

MapReduce是运行在Yam上的所以YAM的上级节点是ResourceManager负责管理整个集群资源，主要用于向每个job分配计算资源，一个集群只有一个ResourceManager。
NodeManager通过该RPC协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态(这里面用到了一个机制心跳机制)
NodeManager负责计算分析 NodeManager周期性主动地向ResourceManager发起请求，并且领取下达给自己的命令

4、MapReduce在代码中体现为Map和Reduce Map阶段和Reduce都是以KEY VALUE键值对形式进行传输，通过JOB向集群进行作业提交一个job将会分为多个Task执行（task是集群中最小可执行单位）

5、ApplicationMaster
ApplicationMaster 监控每一个job执行情况，包括资源申请和TASK调度等

qq_16927377

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习总结

一、hadoop学习总结1、原理 hadoop是通过RPC协议进行通信的，分为两大组件分别是 HDFS和MapReduce。其中HDFS负责海量数据的存储MapReduce负责海量数据的分析计算，MapReduce运行在YAM 上 2、HDFS HDFS(分布式文件系统)有上级节点NameNode和下级节点Dat...
复制链接

扫一扫