HDFS读写数据流程小结

最新推荐文章于 2024-06-11 05:30:00 发布

宇文智

最新推荐文章于 2024-06-11 05:30:00 发布

阅读量238

点赞数

分类专栏：大数据技术文章标签：大数据 hdfs hadoop

本文链接：https://blog.csdn.net/m0_38109926/article/details/107884655

版权

大数据技术专栏收录该内容

32 篇文章 2 订阅

订阅专栏

HDFS的写数据流程

客户端通过distributed FileSystem 模块，向NameNode请求上传文件。
然后NameNode响应客户端可以上传。
然后客户端请求第一个block上传到那几个DataNode服务器
NameNode返回三个DataNode节点，分别是dn1,dn2,dn3。
客户端通过FSDataOutputStrem模块请求向dn1上传数据，dn1收到请求后回调用dn2，dn2又会调用dn3，这样通信管道就会建立。
然后 dn1，dn2 ，dn3逐级应答客户端。
客户端开始往dn1上上传第一block，block以Packet为单位，每个packet数据块大小为64kb，它包括块和具有关联的校验和。dn1收到一个packet，就会传给dn2，dn2又会传给dn3.(每个block 0-128M)
第一block上传完成后，客户端再次请求NameNode上传第二个block。然后重复上面的执行流程。直到文件上传完成。

写数据过程中，如何选择存储副本的数据节点？

为啥要有副本？为了数据安全性。

1. 根据网络拓扑

在HDFS上写数据时，一般默认会在集群上选择三个节点写入副本。那么如何选择这三个节点呢？NameNode会选择距离最近的数据节点接受数据。节点距离：两个节点到达最近的共同祖先的距离总和。

2. 机架感知

1. 假如公司有三台机架。首先，如果客户端在一个数据节点上，那么第一副本肯定在这个数据节点上。如果客户端在集群外（例如在window上），那第一副本就随机选择一个。
2. 第二个副本会存储在另个机架（为了数据的安全性，防止一个机架全部崩溃）
3. 第三个 副本会存储在第二个副本所在机架的随机节点。（为什么不放在第三台机架？因为如果将这三个副本完全铺开，是可以增加安全性，但是也会造成很多网络IO，所以放在第二个副本所在的机架就行了！）

HDFS的读数据流程

客户端通过distributeFileSystem模块向NameNode请求下载文件，NameNode查询元数据，获得文件块所在的DataNode的地址。将地址返回给客户端。
客户端会根据就近，然后随机的原则找一台DataNode服务器，请求读取数据。
然后DataNode就开始传输数据了，传输过程中和写数据过程中一样，都是以packet为单位传输。
然后客户端在以packet为单位，先在本地缓存，然后写入目标文件。

在这里插入图片描述