hadoop节点间磁盘占用率平衡

最新推荐文章于 2024-06-05 09:26:34 发布

ant-666

最新推荐文章于 2024-06-05 09:26:34 发布

阅读量924

点赞数

分类专栏： hadoop 文章标签： hadoop big data hdfs

本文链接：https://blog.csdn.net/lp895876294/article/details/114240749

版权

7 篇文章 2 订阅

订阅专栏

集群中添加新的DataNode。
集群长时间运行，块分片算法导致节点间数据不均衡。
由于历史原因，hadoop集群中的机器的磁盘空间的大小各不相同，而HDFS在进行写入操作时，并没有考虑到这种情况，所以随着数据量的逐渐增加，磁盘较小的datanode机器上的磁盘空间很快将被写满，各数据节点磁盘占用率不同。

在Hadoop提供平衡节点数据均衡的程序，在空闲节点使用命令：$HADOOP_HOME/sbin/start-balancer.sh –t 10%

这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值，如果机器与机器之间磁盘使用率偏差小于10%，那么我们就认为HDFS集群已经达到了平衡的状态。
Balancer程序遵循了以下几点原则：

在执行数据重分布的过程中，必须保证数据不能出现丢失，不能改变数据的备份数，不能改变每一个rack中所具备的block数量。(考虑移动不同rack中的机器)
系统管理员可以通过一条命令启动数据重分布程序或者停止数据重分布程序。
Block在移动的过程中，不能暂用占多的资源，如网络带宽。
数据重分布程序在执行的过程中，不能影响NameNode的正常工作。

Balancer执行过程，Balance程序作为一个独立的进程与NameNode进行分开执行。