客户端向HDFS读写数据机制

本文介绍了HDFS中NameNode和DataNode的角色,详细解析了客户端向HDFS写入和读取数据的流程,包括文件如何被切分为block并分布式存储在DataNode上,以及在传输过程中的校验和副本管理机制。
摘要由CSDN通过智能技术生成

1、HDFS集群角色介绍

1.HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)

2.NameNode负责管理整个文件系统的元数据

3.DataNode 负责管理用户的文件数据块

4.文件会按照固定的大小(blocksize,2.x以后默认是128M)切成若干块后分布式存储在若干台datanode上

5.每一个文件块可以有多个副本,并存放在不同的datanode上

6.Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量。

7.HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行。

2、客户端向HDFS写数据流程分析

假如这里有个300M的文件,需要将它上传到hdfs上

示意图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值