Hadoop-HDFS

三撕后行

于 2023-03-09 16:14:36 发布

阅读量361

点赞数

文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/J2514545645/article/details/129417751

版权

本文详细介绍了Hadoop的分布式文件系统HDFS，包括其基本架构、文件切分思想、Block块拆分策略、NameNode和DataNode的角色、SecondaryNameNode的作用以及Hadoop1.x到Hadoop2.x的演进，探讨了HDFS的优缺点和高可用解决方案。

摘要由CSDN通过智能技术生成

目录

2. 分布式文件系统架构

HDFS 分布式文件系统

3. 文件切分思想

4. Block块拆分

为什么Block块要等大?

5. HDFS的优缺点

在大数据中储存数据：

6. NameNode（NN）

7. DataNode（DN）

8. SecondaryNameNode 解决持久化问题

传统方式：

10. hadoop1.x的困境

hadoop2.x设计思想：

QJM（Quorum JournalNode Manager 共享存储系统）：

1.Hadoop

狭义上来说，hadoop就是单独指代hadoop这个软件，
广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

Hadoop官网

网址 http://hadoop.apache.org/
https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/

2. 分布式文件系统架构

FS文件系统

文件系统是基于硬盘之上的一个文件管理的工具
我们用户操作文件系统可以和硬盘进行解耦

HDFS 分布式文件系统

        将我们的数据存放在多台电脑上存储
        分布式文件系统有很多,
        HDFS是mapreduce计算的基础

3. 文件切分思想

文件存放在同一个磁盘上效率低

读取效率低
如果文件特别大会超出单机的存储范围

字节数组

文件在磁盘真实存储文件的抽象概念
数组可以进行拆分和组装，源文件不会受到影响

切分数据

对字节数组进行切分

拼接数据

按照数组的偏移量将数据连接到一起,将字节数组链接到一起

偏移量

当前数据在数组中的相对位置，你可以理解为下标
数组都有对应的索引(下标),可以快速的定位数据

4. Block块拆分

拆分的数据块需要等大

一个Block块在H1默认大小为64M,在H2及其以后默认大小为128M

同一个文件中，每个数据块大小要一致除了最后一个节点外

真实情况下，会根据文件大小和集群节点的数量综合考虑块的大小

数据块的个数 =Ceil（文件大小 / 每个块的大小）

一般HDFS存储的都是历史数据。所以将来Hadoop的mr都用来进行离线数据的处理

注意：

HDFS中一旦文件被存储，数据不允许被修改

只要有一个块丢失，整个数据文件损坏

为什么Block块要等大?

数据计算的时候简化问题的复杂度
进行分布式算法设计的时候，数据不统一，算法很难设计
数据拉取的时候时间相对一致
通过偏移量就知道这个块的位置
相同文件，分成的数据块大小应该相等

5. HDFS的优缺点

优点：

高容错性

保存多个副本，且提供容错机制。
副本丢失或宕机自动恢复。默认存3份

运行在廉价的机器上（商用机）

通过副本提高可靠性
提供了容错和恢复机制

适合批处理、适合大数据的处理

移动计算而非数据
数据位置暴露给计算框架。NameNode上

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。