Hadoop三剑客

Hadoop三剑客

1、HDFS:Hadoop的文件操作系统

HDFS主要是基于谷歌GFS演变过来的,主要实现数据的存储和管理

请添加图片描述

1.NameNode

NameNode主要存储文件的元数据 、每个文件的块列表块所在的DataNode

  1. 元数据: 元数据是描述数据的数据,包括有:文件名、文件目录结构、文件属性(生产时间、副本数和文件权限)

  2. 块列表: FileSystem的文件系统,通过这个文件系统可以查找到文件所在目录

  3. 块所在的DataNode: 查找文件所在分片数

2.DataNode

DataNode主要存储数据块数据的校验和

  1. 数据: 数据是本数据节点的最主要功能

  2. 块数据的校验和: 通过数据校验对数据进行校验,进而提高文件的容错性

3.Secondary NameNode

在一定的时间间隔对NameNode的元数据进行备份,当NameNode挂了本节点可以直接热启动,继续保证集群运转

2、MapReduce:Hadoop支持的计算框架

Hadoop集群通过分布式存储方式,对一个数据进行分片后进行存储。当这些数据需要进行运算处理,如果将分布式数据进行合并计算,其集群的使用效率很低,且对内部局域网络的负荷也很大。为了提高集群的运算能力,将存储节点和运算节点合并,进而让每个存储节点都拥有一定的运算能力。

请添加图片描述

1.Map

Map阶段并行处理输入数据,节点内部将存储在该节点的数据进行运算,之后通过网络对处理后的进行传输。

2.Reduce

Reduce阶段对Map结果进行汇总,Map处理的数据到Reduce合并的过程中采取归并排序,因为经过Map处理的数据已经有序,采取归并排序其时空复杂度最低。

3、Yarn:资源调度框架

Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一,YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。

请添加图片描述

1.ResourceManager(RM)

(1)处理客户端请求

(2)监控NodeManager

(3)启动或者监控ApplicationMaster

(4)资源的分配与调度

2.NodeManager(NM)

(1)管理单个节点上的资源

(2)处理来自ResourceManager的命令

(3)处理来自ApplicationMaster的命令

3.ApplicationMaster(AM)

(1)负责数据的切分

(2)为应用程序申请资源并分配给内部的任务

(3)任务的监控与容错

4.Container

Container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,包括:内存、CPU、磁盘、网络等。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绝域时空

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值