hdfs文件的写入过程和hdfs的读取过程

前言:小编引入的图片和文字描述都是来自于传智播客的视频讲解,在此感谢传智播客的老师

写入过程

在这里插入图片描述

  1. hdfs client 要上传a.txt(文件带下是300M,默认切片大小是128M),client 向namenode提出上传文件的请求
  2. namenode接受请求并检测文件上传权限(文件的大小限制、个数限制、有没有写入权限等),并响应是否可以上传,此处假设可以上传
  3. namenode向client响应可以上传
  4. hdfs client 根据规则把文件切分为三个block,并请求上传 blk1
  5. namenode根据集群中datanode上的block信息和机架感知选出可以上传的三个主机dn1,dn2,dn3(副本机制配置了三个副本,因此选出了三个主机)
  6. namenode 向hdfs client响应datanode列表dn1,dn2,dn3
  7. hdfs client与dn1建立pipeline管道,dn1与dn2建立pipeline,dn2 与dn3建立 pipeline
  8. hdfs client向dn1传输数据,数据的单位是package,大小是64K
  9. dn1将package信息进行内存缓存(临时目录可以是/tmp/data),并传输给dn2,dn2将信息进行缓存并传输给dn3,dn3将信息进行缓存
  10. 在package的反方向上,逐步发送ack(命令正确应答) ,最重由datanode的节点dn1将pipelineack发送给hdfs client
  11. 整个过程直至blk1上传完成
  12. blk2上传重复 4-11 步骤

读取过程:

在这里插入图片描述

  1. hdfs client向namenode请求读取/下载 /a.txt,来确定请求文件block所在的位置
  2. namenode进行权限检查,获取block的所有DataNode 的信息,并根据一些规则(就近原则、集群拓扑结构等)选出block所在的DataNode的主机,并返回 /a.txt 文件的主机列表
  3. namenode 向 hdfs client 响应文件的主机列表 {blk1:dn1, blk2:dn2, blk3:dn3}
  4. hdfs client 与每一个blokc所在的主机建立pipieline管道(以多线程的方式同时建立的)
  5. client 开始数据的读取,并以package 为单位(大小是64K)
  6. 将block 进行合并,合并成一个完整的文件,如: /export/servers/a.txt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值