Hadoop-YARN 集群搭建指南
1. 引言
YARN 是 Apache Hadoop 的一个子项目,自 Hadoop 2.0 版本引入,它取代了 Hadoop 1.x 版本的旧 MapReduce 框架,并随 Hadoop 2.x 版本一同发布。本文将为 Hadoop-YARN 用户提供详细的安装和配置指南。Hadoop-YARN 集群可以配置为单节点或多节点集群,下面将详细介绍相关内容。
2. Hadoop 2.x 基础组件
Apache Hadoop 2.x 版本主要由三个关键组件组成:
- Hadoop 分布式文件系统(HDFS)
- 另一种资源协调器(YARN)
- MapReduce API(作业执行、MRApplicationMaster、JobHistoryServer 等)
Hadoop 2.x 集群由两个主进程管理:NameNode 和 ResourceManager。集群中的所有从节点运行 DataNode 和 NodeManager 进程,作为集群的工作守护进程。NameNode 和 DataNode 守护进程属于 HDFS,而 ResourceManager 和 NodeManager 属于 YARN。
单节点 Hadoop-YARN 配置需要在同一系统上运行所有四个进程,通常用于学习目的。在生产环境中,建议使用多节点集群,并为 NameNode 和 ResourceManager 守护进程分配单独的节点。随着集群中从节点数量的增加,主节点对内存、处理器和网络的需求也会增加。
3. 支持的平台
安装 Hadoop-YARN 集群可以使
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



