Hadoop学习笔记（一）Hadoop的组成

最新推荐文章于 2024-09-09 23:19:59 发布

种花途。

最新推荐文章于 2024-09-09 23:19:59 发布

阅读量479

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/Array_dear/article/details/130392500

版权

2 篇文章 0 订阅

订阅专栏

1. HDFS

NameNode用于记录整个数据的存储情况，具体的数据存储在各个Hadoop节点中，每个Hadoop的节点可以称为DataNode。假设Hadoop1到Hadoop100的机器每个都有1T的容量。那么一共就可以存储100T的数据。
在这里插入图片描述

Yarn 是Hadoop的资源管理器，主要管理的是CPU与内存。主要有两个模块。

在这里插入图片描述

MapReduce是一种编程模型。这个模型的核心步骤主要分两部分：Map（映射）和Reduce（归约）。比如：从100T的文件当中，找到名称为“cat.mp4” 的视频。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

当一个任务进行提交之后，由 Resource Manager（Yarn）进行分配到 Node Manager 并创建一个包含 Application Master 的 Container
Application Master 会向 Resource Manager 申请资源，用于运行提交的任务。Application Master 申请到资源会在有资源的节点中创建包含 MapTask 的 Container （此时进入到 MapReduce 的Map阶段）。
Map阶段结束之后，会在一个 DataNode 中开启一个包含 Reduce Task 的 Container，进行结果的汇总。然后存入磁盘当中。

Yarn 用于分配资源，MapReduce用于对任务进行计算。前两者操作的数据都在 HDFS 当中存储

在这里插入图片描述

参考：
尚硅谷Hadoop教程： https://www.bilibili.com/video/BV1Qp4y1n7EN
知乎：https://zhuanlan.zhihu.com/p/54994736

关注

专栏目录