Hadoop HDFS集群 和 Yarn集群的架构

本文介绍了ApacheHadoop2.x版本的架构,包括HDFS的主从结构(Namenode,SecondaryNameNode,Datanode),以及YARN的资源管理系统(ResourceManager,NodeManager)及其在MapReduce任务中的角色变化。Hadoop2.X不再有独立的MapReduce集群,而是通过YARN进行任务调度和资源管理。
摘要由CSDN通过智能技术生成

前言:

Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。是专门为离线和大规模数据分析而设计的,Hadoop旨在从单个服务器扩展到数千个机器,每个都提供本地计算和存储。

目录

前言:

Hadoop 介绍

Hadoop 2.X HDFS 集群架构

Hadoop 2.X Yarn 集群


Hadoop 介绍

Hadoop的核心主要包含两个部分:HDFSMapReduceHDFS(Hadoop Distributed File System)分布式文件系统,用于分布式存储海量数据。MapReduce分布式数据处理模型,本质是并行处理。

ps:YARN(Yet Another Resource Negotiator)Hadoop 2.0中的资源管理系统,用于统一管理和调度集群中的资源。

以下内容根据Hadoop 2.X来进行讲解


Hadoop 2.X HDFS 集群架构

以上是HDFS的架构图;

HDFS(Hadoop Distributed File System) : 分布式文件存储系统

namenode : 主节点

1、管理整个HDFS集群

2、维护和管理元数据

ps:一台服务器就相当于一个节点,主节点可以理解为众多节点中的大哥,起带头作用

元数据:描述数据的数据就被称为元数据

例如:文件的存储路径,大小,时间,权限等描述信息

SecondaryNameNode:辅助节点(相当于大哥的秘书)

辅助namenode管理元数据的

datanode:从节点(小弟)

1、维护和管理源文件(源数据)

2、负责数据的读,写操作

3、定时向namenode报活


Hadoop 2.X Yarn 集群

ResourceManager:主节点

1、负责任务的接受

2、负责资源的调度和分配

AppMaster进程(代码级别):

一个MapReduce计算任务 = 一个AppMaster进程,由该AppMaster进程来监控和管理该计算任务,并负责向ResourceManager申请资源

nodemanager:从节点

负责接受并执行ResourceManager分配过来的计算任务


前面提到的MapReduce在1.X中还有着集群架构,用来负责计算任务,但在2.X 中已经没有MapReduce集群的概念了,而是代码级别的程序,即:MapReduce计算任务

ps:我们只需要用代码编写MapReduce计算任务,然后交由Yarn调度执行即可

  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
配置Hadoop HDFSYARN集群涉及到几个重要的配置文件: 1. hdfs-site.xml:这个文件于配置HDFS相关的参数,如数据大小、副本数量、NameNode和Node的存储路径等。示例配置```xml <configuration> <!-- 设置数据块大小为128MB --> <property> <name>dfs.blocksize</name> <value>134217728</value> </property> <!-- 设置副本数量为3 --> <property> <name>dfs.replication</name> <value>3</value> </property> <!-- 设置NameNode的存储路径 --> <property> <name>dfs.namenode.name.dir</name> <value>/path/to/namenode/directory</value> </property> <!--DataNode的存储路径 --> <property> <name>dfs.datanode.data.dir</name> <value>/path/to/datanode/directory</value> </property> </configuration> ``` 2. yarn-site.xml:这个文件用于配置YARN相关的参数,如ResourceManager和NodeManager的内存大小、日志路径等。示例配置: ```xml <configuration> <!-- 设置ResourceManager的内存大小为4GB --> <property> <name>yarn.resourcemanager.memory.mb</name> <value>4096</value> </property> <!-- 设置NodeManager的内存大小为2GB --> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property> <!-- 设置日志路径 --> <property> <name>yarn.nodemanager.log-dirs</name> <value>/path/to/nodemanager/logs</value> </property> <!-- 设置YARN应用程序历史服务器的地址 --> <property> <name>yarn.timeline-service.address</name> <value>hostname:port</value> </property> </configuration> ``` 3. core-site.xml:这个文件用于配置Hadoop的核心参数,如HDFS的默认文件系统、YARN的默认资源管理器地址等。示例配置: ```xml <configuration> <!-- 设置HDFS的默认文件系统为hdfs://namenode:port --> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:8020</value> </property> <!-- 设置YARN的默认资源管理器地址为resourcemanager:port --> <property> <name>yarn.resourcemanager.address</name> <value>resourcemanager:8032</value> </property> </configuration> ``` 这只是配置文件的基本示例,实际配置会根据你的集群规模和需求而有所不同。在配置文件中,你需要根据你的环境和需求修改相应的参数值。此外,还需要确保集群中所有节点上的配置文件保持一致。 配置完成后,将修改后的配置文件分发到集群中所有节点上,并重启HDFSYARN服务,使配置生效。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

听风细雨66

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值