HDFS的读写文件流程

HDFS写流程:

    客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本


写入步骤详解:

    1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在

    2. namenode 返回可使用资源 ,客户端根据使用资源对要写入的数据进行分块

    3. 客户端请求第一个block上传位置

    4. namenode返回3个datanode节点,分别为data1 ,data2 ,data3

    5. 客户端请求向第一个data1上传block,data1收到请求后会调用data2,然后data2调用data3,将通道建立完成,逐级应答客户端

    6. 客户端开始向data1上传第一个block(先从磁盘读取数据放到一个本地内存缓冲),单位为packet(一个packet为64kb),在写入data1的时候会进行数据校验,它并不是通过一个packet进行一次校验而是以chunk为单位进行校验(512byte),data1收到packet就会传给data2,data2传给data3,第一台每传一个packet会放入一个应答队列等待应答

    7. 当一个block传输完成之后,datanode进行报告给namenode存储的块信息,同时也告诉客户端写入成功

    8. 客户端再次请求namenode上传第二个block的服务器(重复执行3-7步)

HDFS读流程:

        客户端要向HDFS写数据,首先要和namenode进行通信来获得需要读取文件的元信息(主要是block的存放文件位置信息),客户端根据获取的信息找到相应的datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件


读取步骤详解:

           1. client和namenode进行通信查询元数据(block所在的datanode节点),找到block所在的datanode服务器

    2. 挑选一台datanode,请求建立连接(就近原则,然后随机),请求建立socket流

    3. datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)

    4. 客户达以packet为单位接受,首先在本地缓冲,然后写入目标文件,后面的block追加合并到这个文件,最后合成最终需要的文件












  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值