hadoop3.x的结构总结

最新推荐文章于 2024-05-07 16:00:04 发布

芋辕-

最新推荐文章于 2024-05-07 16:00:04 发布

阅读量2.2k

点赞数

分类专栏：大数据开发文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41655296/article/details/124247568

版权

大数据开发专栏收录该内容

8 篇文章 1 订阅

订阅专栏

目录

1 hadoop的组成

1.1 hadoop1.x与Hadoop2.x的区别

1.2 HDFS的架构描述

1.3 Yarn架构的描述

2 MapReduce架构概述

3 HDFS的概述

3.1 HDFS的定义

3.2 HDFS的组成结构

3.3 HDFS块大小

3.4 HDFS文件写入

3.5 HDFS的文件读取

3.6 NameNode(NM)和SecondaryNameNode

3.7.1 DataNode的工作机制

3.7.2 数据的完整性

1 hadoop的组成

1.1 hadoop1.x与Hadoop2.x的区别

1.2 HDFS的架构描述

1.3 Yarn架构的描述

2 MapReduce架构概述

MapReduce将计算过程分为两个阶段，Map和Reduce

（1）Map阶段并行处理输入数据

（2）Reduce阶段对Map结果进行汇总

3 HDFS的概述

3.1 HDFS的定义

文件系统，主要用于存放数据。通过目录树来定义文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器各自有自己的角色。

HDFS适合一次写入，多次写出的场景，且不支持文件的修改

3.2 HDFS的组成结构

（1）NameNode(nn)：管理HDFS的名称空间；配置副本策略；管理数据块映射信息；处理客户端读写请求

（2）DataNode(dn)：存储实际的数据块；执行数据块的读写

（3）Client:(客户端)

a: 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传。

b: 与NameNode交互，获取文件的位置信息

c: 与DataNode交互，读取或者写入数据

d: Client提供一些命令来管理DataNode，例如NameNode格式化，以及对NameNode的增删改查

3.3 HDFS块大小

HFDFS中的文件在物理上是分块存储，块的大小可以通过设置（dfs.blocksize）来规定，默认为128MB。

HDFS中块大小受到严格控制

（1）若块的大小太小，会增加寻址时间，程序一直在找块开始的位置。

（2）如果块的大小设置太大，从硬盘传输数据的时间会明显大于定位这个块开始位置的时间。导致程序在处理数据时特别缓慢。

主要取决于磁盘的读写速度

3.4 HDFS文件写入

之所以不用并联的方式的原因主要是由于客户端的压力比较大

3.5 HDFS的文件读取

3.6 NameNode(NM)和SecondaryNameNode

若NN的数据存储在磁盘中，由于客户的频繁访问，效率比较低。**因此**，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并

NameNode的工作机制

3.7 DataNode

3.7.1 DataNode的工作机制

（1）一个数据块在DataNode 上以文件形式存储在硬盘上，包括**两个文件**，一个是**数据本身**，一个是**元数据包括数据块的长度**，块数据的检验和，以及时间戳。

（2）DataNode启动后向NameNode注册，**通过后**，周期性的（1小时）的向NameNode上报所有块信息。

（3）心跳是3s一次，心跳返回结果是带有NameNode给该DataNode的命令如复制块数据另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

3.7.2 数据的完整性

当前DataNode节点保证数据完整性的方法

（1）当DataNode读取Block的时候，他会计算CheckSum.

（2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。

（3）Client 读取其他DataNode上的Block.

（4）DataNode 在其文件创建后周期验证CheckSum.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop3.x的结构总结

目录1 hadoop的组成1.1 hadoop1.x与Hadoop2.x的区别1.2 HDFS的架构描述1.3 Yarn架构的描述2 MapReduce架构概述3 HDFS的概述3.1 HDFS的定义3.2 HDFS的组成结构3.3 HDFS块大小3.4 HDFS文件写入3.5 HDFS的文件读取3.6 NameNode(NM)和SecondaryNameNode3.7 DataNode3.7.1 DataNode的工作机制3.7.2 数据的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。