前言:小编引入的图片和文字描述都是来自于传智播客的视频讲解,在此感谢传智播客的老师
写入过程
- hdfs client 要上传a.txt(文件带下是300M,默认切片大小是128M),client 向namenode提出上传文件的请求
- namenode接受请求并检测文件上传权限(文件的大小限制、个数限制、有没有写入权限等),并响应是否可以上传,此处假设可以上传
- namenode向client响应可以上传
- hdfs client 根据规则把文件切分为三个block,并请求上传 blk1
- namenode根据集群中datanode上的block信息和机架感知选出可以上传的三个主机dn1,dn2,dn3(副本机制配置了三个副本,因此选出了三个主机)
- namenode 向hdfs client响应datanode列表dn1,dn2,dn3
- hdfs client与dn1建立pipeline管道,dn1与dn2建立pipeline,dn2 与dn3建立 pipeline
- hdfs client向dn1传输数据,数据的单位是package,大小是64K
- dn1将package信息进行内存缓存(临时目录可以是/tmp/data),并传输给dn2,dn2将信息进行缓存并传输给dn3,dn3将信息进行缓存
- 在package的反方向上,逐步发送ack(命令正确应答) ,最重由datanode的节点dn1将pipelineack发送给hdfs client
- 整个过程直至blk1上传完成
- blk2上传重复 4-11 步骤
读取过程:
- hdfs client向namenode请求读取/下载 /a.txt,来确定请求文件block所在的位置
- namenode进行权限检查,获取block的所有DataNode 的信息,并根据一些规则(就近原则、集群拓扑结构等)选出block所在的DataNode的主机,并返回 /a.txt 文件的主机列表
- namenode 向 hdfs client 响应文件的主机列表 {blk1:dn1, blk2:dn2, blk3:dn3}
- hdfs client 与每一个blokc所在的主机建立pipieline管道(以多线程的方式同时建立的)
- client 开始数据的读取,并以package 为单位(大小是64K)
- 将block 进行合并,合并成一个完整的文件,如: /export/servers/a.txt