hdfs文件的写入过程和hdfs的读取过程

最新推荐文章于 2024-09-17 08:00:00 发布

秋叶清风

最新推荐文章于 2024-09-17 08:00:00 发布

阅读量430

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_41695138/article/details/119633225

版权

13 篇文章 1 订阅

订阅专栏

前言：小编引入的图片和文字描述都是来自于传智播客的视频讲解，在此感谢传智播客的老师

在这里插入图片描述

hdfs client 要上传a.txt(文件带下是300M，默认切片大小是128M)，client 向namenode提出上传文件的请求
namenode接受请求并检测文件上传权限（文件的大小限制、个数限制、有没有写入权限等），并响应是否可以上传，此处假设可以上传
namenode向client响应可以上传
hdfs client 根据规则把文件切分为三个block,并请求上传 blk1
namenode根据集群中datanode上的block信息和机架感知选出可以上传的三个主机dn1,dn2,dn3（副本机制配置了三个副本，因此选出了三个主机）
namenode 向hdfs client响应datanode列表dn1,dn2,dn3
hdfs client与dn1建立pipeline管道，dn1与dn2建立pipeline，dn2 与dn3建立 pipeline
hdfs client向dn1传输数据，数据的单位是package,大小是64K
dn1将package信息进行内存缓存(临时目录可以是/tmp/data)，并传输给dn2，dn2将信息进行缓存并传输给dn3,dn3将信息进行缓存
在package的反方向上，逐步发送ack(命令正确应答) ，最重由datanode的节点dn1将pipelineack发送给hdfs client
整个过程直至blk1上传完成
blk2上传重复 4-11 步骤

在这里插入图片描述

hdfs client向namenode请求读取/下载 /a.txt,来确定请求文件block所在的位置
namenode进行权限检查，获取block的所有DataNode 的信息，并根据一些规则（就近原则、集群拓扑结构等）选出block所在的DataNode的主机，并返回 /a.txt 文件的主机列表
namenode 向 hdfs client 响应文件的主机列表 {blk1:dn1, blk2:dn2, blk3:dn3}
hdfs client 与每一个blokc所在的主机建立pipieline管道（以多线程的方式同时建立的）
client 开始数据的读取，并以package 为单位（大小是64K）
将block 进行合并，合并成一个完整的文件，如： /export/servers/a.txt