HDFS初学笔记

HDFS概述

Hadoop分布式文件系统(Hadoop Distributed File System,HDFS),Hadoop项目(另一个是Mapreduce)的两大核心之一。

HDFS支持流数据读取和处理超大规模文件,并能够运行在廉价的普通的机器的集群之上(解决了电脑的性能不足问题,因为硬件出错在普通服务器集群中是一种常态,而不是异常)

分布文件系统结构

(*)在hdfs中,会将我们的文件以[块]为单位进行切分。
在hdfs2当中默认的块为128M ,在hdfs1当中默认的块为64M,块的大小可以自定义 。

(*)块是如何占用磁盘空间时会 先从头切一个128m的块。如果实际的大小如果大于128M的文件, 后面小于128m的占用实际的大小

HDFS特点

(1)兼容廉价的硬件设备。在这些普通的服务器上经常会出现节点失效的情况,所以HDFS还有检测与自动恢复的机制。
(2)流数据读写。因为大数据需要随机读写以及与用户进行交互。
(3)大数据集。HDFS的数据通常可以达到TB级别。
(4)简单的文件模型。一次写入、多次读取。
(5)跨平台兼容性。HDFS是采用Java语言实现的,所以拥有很好的平台兼容能力。
(6)不适合低延迟数据访问。
(7)无法高效存储大量小文件
(8)不支持多用户写入及任意修改文件。只允许一个文件有一个写入者。

名称节点和数据节点

名称节点

主节点(Master Node)也被称为"名称节点"(Name Node),负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,FsImageEditLog

  • FsImage用于维护文件系统树以及文件数中所有的文件和文件夹的元数据。
  • 操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作。
  • 名称节点在启动时,会将FsImage加载到内存中,然后执行EditLog 文件中的各项操作,使内存的元数据保持最新。

功能:我们在获取某个文件的时候,只知道文件的名称,具体有哪些块用户是不知道的。所以需要有一个功能模块来管理文件中有哪些块。 NameNode来管理这些信息,NameNode也称之为hdfs当中的主节点在默认结构当中,不管服务器有多少台,NameNode只有一个

数据节点

数据节点(DataNode)是HDFS的工作节点,负责数据的存储和读取,存储了HDFS的文件块。在部署时优先提供存储空间较大的服务器(允许有多个DataNode同时存在)

DataNode采用心跳机制,每间隔一段时间,向NameNode设备发起设备正常的信息,如果NameNode在一定时间没有收到DataNode的信息,就会将该DataNode标记为不可用。

第二名称节点

已知,HDFS的更新操作都是直接写在EditLog文件、NameNode重启后执行其中各项内容,使得内存中的数据达到最新。
但是存在于一个问题,随着操作数得增加,EditLog的文件大小会逐渐增大,每次重启会花费大量的时间用于执行EditLog中的操作(名称节点进入安全模式),无法正常对外提供读写操作。

所以采取第二名称节点(SecondNameNode),具有两方面功能:1.完成EditLog与FsImage的合并;2.作为名称节点的检查点,保存名称节点中的元数据信息。

具体流程:
(1)每隔一段时间第二名称节点(SNN)向名称节点(NN)发出合并通知,停止使用EditLog。停止EditLog的这个时间的段的读写操作写在EditLog.new中。
(2)SNN把NN中的FsImage和EditLog放入本地,再加载到内存。
(3)SNN在内存中逐条执行EditLog中的操作,让FsImage中的数据达到最新。
(4)SNN将合并后的FsImage发送给NN。
(5)NN用新的FsImage替换旧的文件,用EditLog.new替换EditLog成为新的EditLog。
在这里插入图片描述

HDFS的储存原理

数据的冗余存储

为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储(伪分布式下为1,书上默认文件块副本数为3,是因为是全分布的情况下),通常一个数据块的多个副本会被分布到不同的数据节点上。

多副本方式的优点:

  • 加快数据传输速度。客户能从多个数据副本处访问数据。
  • 容易检查数据错误。HDFS各个数据节点之间会进行通信,能够判断数据传输。
  • 保证数据的可靠性。单个的数据节点故障,也能够从副本处获取数据。

数据存取策略

1.数据存放:为了提高数据的可靠性与系统的可用性,以及充分利用网络带宽,HDFS采用了以机架(Rock)为基础的数据存放策略。
2.数据存取:HDFS提供了一个API可以确定一个数据节点所属的机架ID,客户端也可以调用API获取自己所属的机架ID。
3.数据复制:HDFS的数据复制采用了流水线复制的策略,大大提高了数据复制过程的效率。

数据错误与恢复

在实际生产过程当中,硬件出现故障的可能性是很高的[硬件总是不可靠的]

为了保证数据的完整性,那以在hdfs当中会采用副本机制来进行处理,副本的产生是通过DN与DN之间的数据传输。[注。hdfs当 中的副本是包含本身的]

DataNode挂掉?
由NameNode将挂掉DataNode当中的数据,转移到其它的主机当中。

如果NameNode挂掉?

那么集群将无法正常使用。[单点故障]

默认情况下是有这种问题的,在后期会通过多个NN的协同运行的方式进行解决。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用 JavaScript 编写的记忆游戏(附源代码)   项目:JavaScript 记忆游戏(附源代码) 记忆检查游戏是一个使用 HTML5、CSS 和 JavaScript 开发的简单项目。这个游戏是关于测试你的短期 记忆技能。玩这个游戏 时,一系列图像出现在一个盒子形状的区域中 。玩家必须找到两个相同的图像并单击它们以使它们消失。 如何运行游戏? 记忆游戏项目仅包含 HTML、CSS 和 JavaScript。谈到此游戏的功能,用户必须单击两个相同的图像才能使它们消失。 点击卡片或按下键盘键,通过 2 乘 2 旋转来重建鸟儿对,并发现隐藏在下面的图像! 如果翻开的牌面相同(一对),您就赢了,并且该对牌将从游戏中消失! 否则,卡片自动翻面朝下,您需要重新尝试! 该游戏包含大量的 javascript 以确保游戏正常运行。 如何运行该项目? 要运行此游戏,您不需要任何类型的本地服务器,但需要浏览器。我们建议您使用现代浏览器,如 Google Chrome 和 Mozilla Firefox, 以获得更好、更优化的游戏体验。要玩游戏,首先,通过单击 memorygame-index.html 文件在浏览器中打开游戏。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值