2021-12-08 迈向程序猿的第四十四步

最新推荐文章于 2024-04-20 23:12:18 发布

改个昵称就有这么难吗

最新推荐文章于 2024-04-20 23:12:18 发布

阅读量3.2k

点赞数 1

分类专栏：日记文章标签： hadoop hdfs big data

本文链接：https://blog.csdn.net/qq_48654729/article/details/121783037

版权

日记专栏收录该内容

60 篇文章 0 订阅

订阅专栏

3.3 secondnarynamenode

一.HDFS的读写流程

1.1 读流程

1.客户端获取DistributedFileSystem对象,调用open方法,准备读取一个文件

2.namenode收到读请求后,会校验是否有权限,读取文件路径是否存在等操作,如果通过校验,会返回一个输入流对象以及文件的所有块的所有副本的位置信息

3.客户端准备调用输入流的read方法读取数据,先将第一个块的三个位置由近及远的排序,选择最近的副本开始循环调用read方法读取数据

4.当块读完后,会断开与该datanode的连接,继续寻找下一个块的最佳读取位置读取数据,直到整个文件读取完毕

5.调用输入流的close方法关闭流,以及向namenode汇报读取流程结束

注意:如果读取过程中,出现机器宕机,会选择该块的另外两个副本的最佳位置,开始重新读取该块的数据,并标记宕机的那个机器节点,防止其他的读取操作在此来到该节点(做无用功).读取过程中,也会进行校验和确认数据是否完整,如果不完整,也会选择其他的副本重新读取

1.2 写流程

1.客户端获取DistributedFileSystem对象

2.调用分布式文件系统对象的create方法,表示创建文件路径

3.namenode会对客户端是否有权限,目录是否已经存在等进行校验,如果校验通过,则返回一个输出流对象,并返回第一个块的三个datanode的信息

4.客户端先将三个datanode节点组成一个socket通信的pipleine,由近及远的顺序

5.客户端将本地数据读入内存,封装成多个chunk(512byte)和checksum(4byte),然后再将多个chunk和checksum封装成一个packet(64kb)

6.客户端调用输出流的write方法,将每一个packet写入管道的第一个节点的内存中,第一个节点再传入第二个节点内存,第二个节点再传入第三个节点内存.三个节点都要进行向客户端进行ack应答,表示存储成功

7.客户端会源源不断的向管道书写packet,当累计到一个块大小128M时,会断开该管道,重新向namenode申请下一个块的三个datanode信息.重复上述操作,知道文件的最后一个块完成写出,调用

close方法关闭输出流.再与namenode进行通信,表示上传成功,namenode重新维护元数据

细节:

写流程设计两个队列和两个线程

dataqueue--->dataStreamer

dataqueue:用来存储客户端封装好的packet

dataStreamer:将dataqueue中的每一个头元素packet拷贝pipeline中,并移除到ackqueue队列

ackqueue--->responseStreamer

ackqueue:用来记录正在管道中的所有packet

responseStreamer:用来接受ack信息,如果三个节点都ack成功,就会将ackqueue中的packet删除

注意:

如果中间出现宕机,则会记录宕机的机器防止下次再给予操作于该机器,然后将另外两个节点组成一个新管道,并为了确保数据一致性,会对数据进行回滚重新写入

二.HDFS的块的特点

2.1 hdfs块的特点

hdfs的块大小统一,固定的

hdfs的块大小可以自定义

默认情况:

hadoop1.x --->64M

hadoop2.x --->128M

hadoop3.x --->256M

块是hdfs的最小存储单元

块使用了副本的概念(提高数据的安全性,可靠性)

块的多个副本一定是布局到不同的机器上的(一个机器不可能有一个块的两个副本)

文件的最后一个块,通常是小于128M,实际大小是多少,就占磁盘多少空间

注意:块的数量(一个文件能分成的块数) 和块的个数(算上副本的块的总数)要区别开

2.2 hdfs块大小的选择

1.块不能太大,原因是网络宽带稀缺,下载时间长,带宽被稀释的越多

2.块不能太小

①.最小化寻址开销时间

寻址与传输用时比:10ms:1000ms

②namenode内存的利用率

内存有限的情况下,namenode存储的元数据数量有限,即分布式文件系统的总块数有限

此时块越大,分布式文件系统的存储能力越强

③扩展:怎么提高集群的存储能力

(1).在namenode内存是固定的情况下,提高块的大小

(2).在namenode内存充足的情况下,横向扩展集群的datanode个数

2.3 块的参数

1.dfs.blocksize

块的大小对应的参数

2.dfs.namenode.fs-limits,min-block-size

块大小的最小值,默认是1M

3.dfs.namenode.fs-limits,max-blocks-per-file

每个文件的块的最大数量,默认是1048576个

4.块的存储位置:

由dfs.datanode.data.dir参数决定:

默认值${hadoop.tmp.dir}/dfs/data

2.4 HDFS的优缺点

2.4.1 优点

1.高容错性(硬件故障是常态,高可靠性):数据自动保存多个副本,副本丢失后,会自动恢复

2.适合大数据集:GB,TB,甚至PB级数据,千万规模以上的文件数量,1000以上节点规模

3.数据访问:一次写入,多次读取,保证数据一致性,安全性

4.构建成本低

5.多种软硬件平台中的可移植性

6.高效性:Hadoop能在节点之间动态移动数据,并保证各个节点的动态平衡,因此处理速度非常快

2.4.2 缺点

1.不适合做低延迟数据访问

2.不适合小文件存取

3.不适合并发写入,文件随意修改

三.HDFS的体系结构

3.1 namenode

管理命名空间,操作fsimage和edit日志,维护目录树结构,以及块和datanode的存储位置

3.2 datanode

与客户端进行交互完成读写请求,定期向namenode反馈状态信息