Hadoop-HDFS

本文详细介绍了Hadoop的分布式文件系统HDFS,包括其基本架构、文件切分思想、Block块拆分策略、NameNode和DataNode的角色、SecondaryNameNode的作用以及Hadoop1.x到Hadoop2.x的演进,探讨了HDFS的优缺点和高可用解决方案。
摘要由CSDN通过智能技术生成

目录

1.Hadoop

Hadoop官网

2. 分布式文件系统架构

FS文件系统

HDFS 分布式文件系统

3. 文件切分思想

4. Block块拆分

为什么Block块要等大?

5. HDFS的优缺点

在大数据中储存数据:

6. NameNode(NN)

7. DataNode(DN)

8. SecondaryNameNode 解决持久化问题

传统方式 :

9. hadoop1.x

10. hadoop1.x的困境

11. hadoop2.x

hadoop2.x设计思想:

ANN:

SNN:

QJM(Quorum JournalNode Manager 共享存储系统):

ZKFC:

12. Hadoop3.x


1.Hadoop

狭义上来说,hadoop就是单独指代hadoop这个软件,
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

Hadoop官网

网址 http://hadoop.apache.org/
https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/

2. 分布式文件系统架构

FS文件系统

        文件系统是基于硬盘之上的一个文件管理的工具
        我们用户操作文件系统可以和硬盘进行解耦

HDFS 分布式文件系统

        将我们的数据存放在多台电脑上存储
        分布式文件系统有很多,
        HDFS是mapreduce计算的基础

3. 文件切分思想

文件存放在同一个磁盘上效率低

        读取效率低
        如果文件特别大会超出单机的存储范围

字节数组

        文件在磁盘真实存储文件的抽象概念
        数组可以进行拆分和组装,源文件不会受到影响

切分数据

        对字节数组进行切分

拼接数据

        按照数组的偏移量将数据连接到一起,将字节数组链接到一起

偏移量

        当前数据在数组中的相对位置,你可以理解为 下标
        数组都有对应的索引(下标),可以快速的定位数据

4. Block块拆分

        拆分的数据块需要等大

        一个Block块在H1默认大小为64M,在H2及其以后默认大小为128M

        同一个文件中,每个数据块大小要一致除了最后一个节点外

        真实情况下,会根据文件大小和集群节点的数量综合考虑块的大小

        数据块的个数 =Ceil( 文件大小 / 每个块的大小)

        一般HDFS存储的都是历史数据。所以 将来Hadoop的mr都用来进行离线数据的处理

注意:

        HDFS中一旦文件被存储,数据不允许被修改

        只要有一个块丢失,整个数据文件损坏

为什么Block块要等大?

数据计算的时候简化问题的复杂度
        进行分布式算法设计的时候,数据不统一,算法很难设计
数据拉取的时候时间相对一致
通过偏移量就知道这个块的位置
相同文件,分成的数据块大小应该相等

5. HDFS的优缺点

优点:

高容错性

        保存多个副本,且提供容错机制。
        副本丢失或宕机自动恢复。默认存3份

运行在廉价的机器上(商用机)

        通过副本提高可靠性
        提供了容错和恢复机制

适合批处理、适合大数据的处理

        移动计算而非数据
        数据位置暴露给计算框架。NameNode上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值