大数据离线-HDFS-（中）读写原理解析

最新推荐文章于 2024-04-28 05:29:18 发布

xipenfei

最新推荐文章于 2024-04-28 05:29:18 发布

阅读量476

点赞数

分类专栏：大数据 HDFS 文章标签：离线数据 HDFS原理

本文链接：https://blog.csdn.net/weixin_42229056/article/details/82665457

版权

54 篇文章 6 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

本次介绍HDFS,分为上，中，下，三篇

负责将实际数据存储在 HDFS 中。称为 Slave。
定期心跳： 和NameNode 保持不断通信。启动时，它将自己发布到 NameNode 并汇报自己负责持有的块列表。定期（dfs.heartbeat.interval 配置项配置，默认是 3 秒）向NameNode 发送心跳
失效判定： 如果 NameNode 长时间没有接受到 DataNode 发送的心跳， NameNode 就会认为该 DataNode 失效。
单节点故障处理方式： 当某个 DataNode 关闭时，它不会影响数据或群集的可用性。 NameNode 将安排由其他 DataNode 管理的块进行副本复制。
性能要求： 所在机器通常配置有大量的硬盘空间。因为实际数据存储在DataNode 中。
block 汇报时间间隔取参数 dfs.blockreport.intervalMsec,参数未配置的
话默认为 6 小时.

首先介绍HDFS的工作机制

HDFS 的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向NameNode 申请来进行。

客户端通过调用fileSystem对象的open方法，打开希望读取的文件。实际对应HDFS来说是一个分布式文件系统的实例。
DistributedFileSystem通过使用RPC来调用NameNode，确定文件的起始位置，返回每一个副本的dataNode地址信息。这些dataNode会根据于客户端的距离来排序。DistributedFileSystem返回一个FSDataInputStream类给客户端并读取数据，FSDataInputStream类封装了一个FSDataInputStream对象，该对象管理dataNode和nameNode的IO。
**客户端对FSDataInputStream对象输入流调用read方法，**FSDataInputStream就会连接距离最近的datanode，反复调用read方法将数据传送到客户端，到达末端是FSDataInputStream会关闭于该dataNode的连接，寻找下一个dataNode。当dataNode的location信息读完，会询问nameNode来检索下一批Block的位置信息。
FSDataInputStream持续读取Block文件数据。
FSDataInputStream持续读取Block文件数据。
客户端读取完成，就对FSDataInputStream调用close的方法。

读取文件中断或者错误的情况
- 在FSDataInputStream读取的过程中，如果于DataNode出现通信错误，便会尝试从临近的另外一个dataNode中读取。同时记录该dataNode的信息，以后不会反复读取该节点的块数据。
- FSDataInputStream也会校验读取数据的完整性，如果损坏就会在读取下一个副本之前通知nameNode。

在海量数据处理中，主要的限制因素是节点之间的数据传输速率，这里的想法是将两个节点之间的带宽作为距离的衡量标准。带宽递减的等级如下：

在这里插入图片描述

DistributedFileSystem对象调用create方法创建文件
DistributedFileSystem对nameNode创建一个RPC调用，nameNode创建一个新的文件，nameNode执行各种检测文件是否存在，判断用户权限。为新的文件创建一条记录；否则判处IO异常。返回DFSOutputStream,负责处理dataNode与NameNode之间的通信。
客户端写入数据时，DFSOutputStream将文件文臣一个个数据包，并写入内部队列，称为数据队列。
这一组datanode构成一个管线，DataStreamer将数据包流式的传送到管线中的一个datanode,该数据包存储数据并且流式的往下发送，直到设置备份数的最后一个节点。
DFSOutputStream也维护者一个内部数据包队列来等待datanode收到消息确认回执，也成为确认队列（ack queue）,确认后数据才会被从队列中删除。
客户端完成写入后，会对数据流调用close()方法。该操作将剩余的所有数据包写入datanode的管线中，并在联系nameNode发送文件完成之前等待确认，nameNode已经知道了文件由那些块组成（通过DataStream）,所以在返回成功之前只需要等到数块进行最小量的复制。

如果在数据写入期间，dataNode节点发生故障，会执行一下操作（对客户端透明）

关注