HDFS再平衡器

最新推荐文章于 2024-10-13 00:13:13 发布

lcs_草木本心

最新推荐文章于 2024-10-13 00:13:13 发布

阅读量816

点赞数

HDFS数据并不总是均匀存储在datanode中的，如新增加一个datanode节点到集群中。当有新的数据要存储时，namenode会考虑多种因数后再选择datanode来存储数据。

因数如下：

1 把一个副本存放到client所在的节点中。

2 不能把所有副本放在同一个机架上，这样可以避免机架崩溃导致所有副本丢失。

3 把其中一个副本存到同一个机架中的节点中，这样可以减少跨机架网络I/O。

4 HDFS数据要均匀分布到集群中的 datanode节点中。

考虑到上述因素，HDFS提供了一个分析数据块的存放和datanode数据再平衡的工具rebalancer。

rebalance工作原理如下：

Step1： rebalance 向namenode请求datanode report。

Step2: rebalance分析报告后选择所有的proxy source 和 destination datanode，向namenode请求每个proxy source的文件块映射。

Step3: rebalance 向proxy source 发送复制文件块destination datanode的命令。

Step4: proxy source 向destination 请求重新放置proxy source中的数据块。

Step5: destination复制完数据块后,通知namenode删除proxy source中的数据块。

Step6: namenode选择一个副本删除文件块。Destination 向proxy source 通知文件块状态。

Step7: proxy source 向reblance 通知操作状态。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lcs_草木本心

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结

赵英超的博客

02-04

2165

hdfs 需要存写大量文件，有时磁盘会成为整个集群的性能瓶颈，所以需要优化 hdfs 存取速度，将数据目录配置多磁盘，既可以提高并发存取的速度，还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM）

HDFS节点内数据平衡：DiskBalancer

走在前往架构师的路上

06-28

1万+

前言做集群运维的同学可能都会遇到这样一个问题:Hadoop集群使用久了,各个节点上的数据会变得不均衡,多的达到70,80%,少的就10,20%.面对这种场景,我们的办法一般就是用HDFS自带的Balancer工具对其进行数据平衡.但有的时候,你会发现尽管节点间数据平衡了,但是节点内各个磁盘块的数据出现了不平衡的现象.这可是Balancer工具所干不了的事情.通过这个场景,我们引入本文的一个话题点:H

参与评论您还未登录，请先登录后发表或查看评论

HDFS Router-Based Federation Rebalancer.pdf_hdfs_

10-01

hdfs的源码深入学习，提升hdfs的使用水平

HDFS的Rebalance功能

juliashine的专栏

11-08

2642

HDFS中的数据按照一定策略分布在集群中的多个数据节点上，但在某些情况下，数据的分布也会出现不均衡的情况，比如说集群新增加了节点，在新增加的节点上就没有数据存在，虽说之后新增的数据会分配到新节点上，不过，对于已有数据，新节点和原有节点上的分布很不均衡，而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配，白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说，随...

（全网独家）面试要懂运维真实案例：HDFS重新平衡(HDFS Balancer)没触发问题排查

热门推荐

mnasd的博客

05-18

2万+

参考文档： http://blog.csdn.net/chilianyi/article/details/50946818https://www.cloudera.com/documentation/enterprise/5-10-x/topics/admin_hdfs_balancer.html CDH官网文档1.快速入门当前存储集群...

HDFS-REBALANCE一次生产环境下的优化

m0_46444724的博客

07-26

872

HDFS-REBALANCE一次生产环境下的优化不知道balance是什么的小伙伴可以先查一下rebalance，假设你已经知道了rebalance的相关过程。集群配置信息：集群节点配置，共配置18台节点，三台配置为6T，十五台配置为28T，三台低配置电脑为同一机架问题现象： 1.rebalance任务执行缓慢，移动数据量小 2.任务执行rpc时间边长，延迟高 3.在同步部分数据后，未达到设定的平衡值就退出了rebalance 4.日志报错提示多，报错线程数不够后，会导致datanode休眠10s 问

hdfs 磁盘存储不平衡、重新平衡操作

多一份贡献,多一份环保

01-09

1453

在日积月累的操作中、可能会存在有些磁盘的存储分布得不是很平衡、这就给数据多的那一台机子带来压力、因为很多的读取都是在同一台机子上、所以我们需要重新平衡一下存储、也就是把存储多的机子上的数据转移到其它机子。这里我们使用hdfs提供的balancer命令操作。操作随意登录hdfs集群中的某一台机子、然后切换到hdfs用户 su - hdfs kerberos 认证[可选] kinit...

【小工具】hdfs balance脚本（均衡操作）

01-20

2. `sudo -u hdfs hdfs balancer -policy datanode -threshold 10`：这一行启动数据均衡器。`-policy datanode`指定以DataNode为单位进行平衡，`-threshold 10`表示当各节点的存储利用率相差超过10%时，就会启动平衡...

【HDFS】【HDFS架构】【HDFS Architecture】【架构】

wq6qeg88的博客

02-17

829

1 Introduction介绍 The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, the differences from other distributed file systems

HDFS Balancer负载均衡器

BASK2311的博客

03-31

489

此处是我自己的一个简单的理解所谓的平衡指的是每个DataNode的利用率与集群的利用率之间相差不超过给定的阈值百分比。此处的平衡指的是各个DataNode之间的平衡，同一个DataNode之间的各个磁盘是不会平衡的。

HDFS rebalancer Exception: Another Balancer is running..

freeRoad

04-19

614

转载来自：公众号"Hadoop足迹"（微信号：gh_606ce9db5c8e）作者：罗康 1.文档编写目的本文主要讲述如何解决HDFS运行Balancer提示“Another Balancer is running..”导致Balancer失败的问题。测试环境： 1.操作系统版本为Redhat7.2 2.CM和CDH版本为5.11.2 3.HDFS已启用HA 文章目录结构： 1.文档编写目的 2.问题描述 3.解决方案 3.1问题解...

HDFS集群数据不均衡处理

Data & Analysis

08-05

1592

HDFS集群数据不均衡处理

【HDFS实战】HDFS上的数据均衡

coding and writing

06-28

3472

HDFS上的数据均衡

HDFS优化操作

lslslslslss的博客

12-17

1008

目录一、HDFS的多目录操作 1.NameNode多目录的配置 2.DataNode多目录配置 3.集群数据均衡之磁盘间数据均衡二、HDFS集群的扩容与缩容 1.添加白名单 2.添加新服务器 3.服务器间数据均衡 4.黑名单退役服务器三、HDFS故障的排除 1.NameNode故障处理 2.集群安全模式&磁盘修复一、HDFS的多目录操作 1.NameNode多目录的配置 a.在每台服务器中，NameNode的本地目录都可以配置多个，并且每个目录存...

hadoop rebalance

weixin_33775572的博客

06-25

188

之前一直没做过rebalance，以为速度很快，结果大意了，等到磁盘达到90%的时候，才开始做rebalance。默认的从日志中可以看到总共需要迁移1.89T，但是每次只移动40G大小的量。然后查看40G的数据量从15:45分到15:48分，所以结算结果为每分钟13G,每秒228M左右。(感觉这计算结果有问题) hadoop有个balancerBandwidth可以通过设置带宽...

HADOOP HDFS BALANCER介绍及经验总结

妙妙的博客

04-26

2719

1.集群执行balancer命令，依旧不平衡的原因是什么？该如何解决？2.尽量不在NameNode上执行start-balancer.sh的原因是什么？集群平衡介绍Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁

hadoop 集群 rebalance 和磁盘均衡

mnasd的博客

12-10

2154

在我们使用hadoop集群的时候，由于日志数据不断流入写入到hdfs上，而且算法人员不断的清洗数据做特征工程又会产生新的中间数据，而且量一点都不小。这个时候 hadoop 集群就要面临着 hdfs 空间扩容和数据的 rebalance hdfs 的扩容和磁盘扩容有关，在我上一片文章介绍了磁盘扩容，集群各个节点添加新的磁盘 volume disk，然后把这些格...

HDFS生产环境做rebalacne的坑

u011250186的博客

01-17

187

HDFS生产环境做rebalacne的坑

Hadoop容量调度器配置详解

但请注意，这可能会导致资源不平衡，因此通常会根据需求设定一个合理的最大值。 ### 工作原理容量调度器首先按照队列的容量分配资源，然后在队列内部，作业按照公平共享的原则分配资源。如果某个队列的资源未达到...