hadoop之HDFS:数据块恢复与文件上传测试

本文详细探讨了HDFS中数据块在DataNode故障后的恢复过程,通过不同测试场景分析了`dfs.namenode.replication.max-streams`参数对恢复速度的影响。测试表明,增加该参数值能显著提高数据恢复效率,例如在某些场景下,每分钟可恢复数千个数据块,30个节点可在50分钟内完成300万个数据块的修复。此外,还讨论了单机器上安装多个DataNode的情况。
摘要由CSDN通过智能技术生成


1.数据块恢复

当某台机器上的一个DataNode进程down掉,HDFS为了保证文件的副本满足设定的副本数,会进行数据块的恢复操作。块恢复操作主要受两个参数影响:

a)dfs.namenode.replication.work.multiplier.per.iteration  NameNode计算集群每个周期每个DataNode平均恢复的数据块数量;如果该参数配置得太小,则dfs.namenode.replication.max-streams配置得再大没有用;

b)dfs.namenode.replication.max-streams单个DataNode最大同时恢复的块数量,可以间接控制DataNode恢复数据块的带来的网络等压力;

   同时,数据块恢复与文件系统读写文件一样,不会受限制移动数据块参数的限制,该参数做balance的时候才起作用:

          hdfs  dfsadmin -setBalancerBandwidth 62914563

1.1数据块恢复测试场景

    以上所有测试场景文件大小为1MB,3台作为DataNode的机器为内存大小为16GB,网卡为1000Mb。(下面所有的网络图以最右边的一个波形图作为测试的网络值)

1.1.1 测试场景1

参数dfs.namenode.replication.max-streams=600,需要恢复数据块数量18016,两个DataNode节点参与恢复,则每个节点平均需要恢复9008。

开始时间:14:18

结束时间:14:27

则每个节点1分钟修复

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值