HDFS数据不均衡解决方案：基于剩余空间大小的均衡策略

最新推荐文章于 2024-01-15 15:12:13 发布

VIP文章 Android路上的人

最新推荐文章于 2024-01-15 15:12:13 发布

阅读量4.1k

点赞数 2

分类专栏： Hadoop HDFS 文章标签： balancer hdfs 数据平衡

本文链接：https://blog.csdn.net/Androidlushangderen/article/details/78308893

版权

前言

相信对于广大的Hadoop集群的使用者和维护者，集群在长时间的使用过程中，肯定或多或少碰到节点间数据不均衡的现象。比如有些节点可能磁盘使用率已经达到90%，而有些节点可能就10%。当然我们说，在使用百分比明细不均衡的情况下，我们可以用HDFS提供的Balancer工具帮我们解决这个问题。但是这不能解决所有的情况，比如说存在异构节点的集群。举一个简单的例子，集群内2个节点：A节点磁盘容量100T,B节点磁盘容量10T，如果按照默认Balancer平衡策略（按照使用百分比的策略），比如说最终会趋向于A节点使用70T，空闲30T，B节点使用7T,空闲3T。这种情况下，我们显然不希望把数据放到B节点上了，因为按照绝对值来讲，A节点剩余的30T空间显然会大很多。基于这类场景，我们可能需要一种基于剩余空间的数据均衡策略，使上面的例子最终平衡的效果变为A节点使用97T,空闲3T，B节点使用7T，空闲3T。

默认数据平衡策略的缺陷

在讲述本文主题之前，我们首先得理解现有策略的缺陷和不足，然后我们才能知道怎么去改进。如前言中已经提过，现有默认的Balancer策略更适应于完全同质化的节点结构（比如说相同磁盘空间），这样的话，它能够始终保持这些节点都存有差不多数据量的块数据。

但是在磁盘容量差距巨大的情况，比如说集群20个节点，10个节点拥有超大磁盘容量（100T）,而另10个节点则是普通的10T，这个时候我们当然更倾向于将更多的数据往大容量节点机器上放。一种情况，我们限制磁盘的使用率在90%，这是小磁盘容量剩余1T，这能够接受，但是大磁盘容量每台机器，就剩了10T，10个节点就是100T，可是很大的空间浪费啊。如果你想利用掉着10T,那么相对应的小磁盘容量机器会受不了，它的剩余容量绝对值已经很少了，到时机器的读写性能也可想而知。

所以针对此，笔者想到了基于剩余空间量的数据均衡策略。此策略的最终目的是使各个节点的剩余空间相等，而不是按照使用占比。

基于剩余空间大小的均衡策略

策略实现思路

这个策略目前是HDFS内部还没有实现的，所以需要我们做一点小的改动，注意这里笔者提到的是小的改动，因为里面大部分的逻辑是可以复用的。

笔者阅读了相关的代码，现有的Balaner执行逻辑大体可以分为如下：

1.初始化节点信息，计算集群总容量和总使用空间占比。
2.遍历每个节点，计算此节点目前的使用空间占比，与集群使用在空间占比做比较&

最低0.47元/天解锁文章

Android路上的人

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
HDFS数据不均衡解决方案：基于剩余空间大小的均衡策略

前言相信对于广大的Hadoop集群的使用者和维护者，集群在长时间的使用过程中，肯定或多或少碰到节点间数据不均衡的现象。比如有些节点可能磁盘使用率已经达到90%，而有些节点可能就10%。当然我们说，在使用百分比明细不均衡的情况下，我们可以用HDFS提供的Balancer工具帮我们解决这个问题。但是这不能解决所有的情况，比如说存在异构节点的集群。举一个简单的例子，集群内2个节点：A节点磁盘容量100T,
复制链接

扫一扫