大数据组件学习6 —— HDFS(二)

之前说了HDFS的组件,尤其是 NN, DN, 2NN的工作机制,这回整理下HDFS的block块与副本机制,读写过程

1. HDFS的block块

HDFS中存储的文件都以block的形式放在DN中,Hadoop 2.X中采用每个block的默认大小128M, 可以调整,主要看网络IO,磁盘IO的能力,设置太小,寻址时间过长,设置太大MR处理时间过长

以block存储文件的好处:

  • 可存储比磁盘空间大的文件
  • 块的形式可以简化存储子系统
  • 块的形式非常适合数据备份从而提供系统容错性  

2.副本机制

就是每个块有几个,默认的副本因子为3

3. HDFS的数据读写过程

3.1 写入

  • client通过建立RPC通信询问NN能否写入文件,NN检查文件是否存在,父目录在哪里,是否可以写入文件 
  • Client 请求第一个block应写到哪些DN上,NN根据文件备份数量和机架感知机制返回可以写入的DN的地址
  • Client通过RPC调用与第一个DataNode A 建立连接,A收到请求后会调用B, 再调用C,4者建立连接,形成一个pipeline
  • client以packet的形式将数据发送给A,A得到数据后将数据发送给B, B再发给C, B和C收到packet后返回一个ack信号
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值