hadoop小结（知识点）

最新推荐文章于 2024-07-19 15:36:42 发布

苦瓜大哥

最新推荐文章于 2024-07-19 15:36:42 发布

阅读量396

点赞数 9

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/LJT_love/article/details/135277339

版权

hdfs

namenode

NameNode是HDFS的主要组件之一。它负责管理文件系统的命名空间和元数据。NameNode维护了一个文件树和文件的元数据，包括文件的访问权限、块的位置等。它记录了文件系统中每个文件和目录的信息，并协调客户端对文件的访问请求。NameNode还负责分配和管理数据块存储在哪个DataNode上。

datanode

DataNode是HDFS的工作节点组件。它是存储实际数据块的地方。DataNode负责存储和检索数据块，以及向客户端提供读写数据的服务。DataNode根据NameNode的指示来保存和复制数据块，并向NameNode报告存储容量和健康状况。

secondnamenode

Secondary NameNode并不是NameNode的备份，而是NameNode的辅助组件。它的主要功能是定期合并和压缩NameNode的编辑日志（Edit Logs），以减少NameNode启动时间。Secondary NameNode定期从NameNode获取最新的编辑日志，并将其合并为一个新的镜像文件（Checkpoint）。这样，当NameNode发生故障时，可以使用Checkpoint快速恢复文件系统状态。

yarn

Yarn是Hadoop的资源管理器，负责协调和管理群集中的资源。它接收应用程序的资源请求，并根据可用资源进行动态分配。Yarn还跟踪应用程序的进度和状态，并监控集群中的节点。

ResourceManager

ResourceManager是Yarn的组件之一。负责全局资源的管理和分配。ResourceManager维护着整个集群的资源信息，包括内存、CPU等。当应用程序提交资源请求时，ResourceManager根据可用资源进行分配。

NodeManager

NodeManager是Yarn的另一个组件，运行在每个集群节点上。它负责监视和管理该节点上的资源。NodeManager与ResourceManager通信，报告节点的可用资源，并执行ResourceManager的指令来启动或停止容器。

ApplicationMaster

对于每个运行在Yarn上的应用程序，都有一个对应的ApplicationMaster。ApplicationMaster负责协调应用程序执行过程中的所有任务。它与ResourceManager通信，申请和分配资源，并与NodeManager交互，启动和监控容器的执行。ApplicationMaster还负责错误处理和应用程序的状态管理。

Container

在Yarn中，容器是运行应用程序任务的隔离环境。当应用程序向ResourceManager请求资源时，ResourceManager会为应用程序分配容器。容器是一个虚拟的执行环境，具有特定的资源限制，如内存和CPU。每个容器内部运行一个或多个任务，并提供必要的资源。容器之间相互隔离，以确保任务之间的互不干扰。