hadoop之HDFS:数据块恢复与文件上传测试

最新推荐文章于 2024-07-01 13:45:44 发布

liuhong1123

最新推荐文章于 2024-07-01 13:45:44 发布

阅读量3.5k

点赞数

分类专栏： HDFS 文章标签： HDFS hadoop2.x

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuhong1123/article/details/12914747

版权

本文详细探讨了HDFS中数据块在DataNode故障后的恢复过程，通过不同测试场景分析了`dfs.namenode.replication.max-streams`参数对恢复速度的影响。测试表明，增加该参数值能显著提高数据恢复效率，例如在某些场景下，每分钟可恢复数千个数据块，30个节点可在50分钟内完成300万个数据块的修复。此外，还讨论了单机器上安装多个DataNode的情况。

摘要由CSDN通过智能技术生成

1.数据块恢复

当某台机器上的一个DataNode进程down掉，HDFS为了保证文件的副本满足设定的副本数，会进行数据块的恢复操作。块恢复操作主要受两个参数影响：

a）dfs.namenode.replication.work.multiplier.per.iteration NameNode计算集群每个周期每个DataNode平均恢复的数据块数量；如果该参数配置得太小，则dfs.namenode.replication.max-streams配置得再大没有用；

b）dfs.namenode.replication.max-streams单个DataNode最大同时恢复的块数量，可以间接控制DataNode恢复数据块的带来的网络等压力；

同时，数据块恢复与文件系统读写文件一样，不会受限制移动数据块参数的限制，该参数做balance的时候才起作用：

hdfs dfsadmin -setBalancerBandwidth 62914563

1.1数据块恢复测试场景

以上所有测试场景文件大小为1MB，3台作为DataNode的机器为内存大小为16GB，网卡为1000Mb。（下面所有的网络图以最右边的一个波形图作为测试的网络值）

1.1.1 测试场景1

参数dfs.namenode.replication.max-streams=600，需要恢复数据块数量18016，两个DataNode节点参与恢复，则每个节点平均需要恢复9008。

开始时间：14:18

结束时间：14:27

则每个节点1分钟修复

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。