如何平衡HDFS中的DataNode存储？

最新推荐文章于 2024-05-08 14:14:12 发布

cuma2369

最新推荐文章于 2024-05-08 14:14:12 发布

阅读量297

点赞数

文章标签： hadoop 大数据 hdfs spark java

原文链接：https://www.systutorials.com/how-to-balance-datanode-storage-in-hdfs/

版权

As nodes are added and deleted in a Hadoop cluster. Storage usage across DataNodes may be different. Some DataNodes’ disks are almost used up while some others’ are almost empty.

在Hadoop群集中添加和删除节点时。跨DataNode的存储使用情况可能有所不同。一些DataNode的磁盘几乎用完，而另一些磁盘几乎是空的。

How to balance data across DataNodes in HDFS?

如何在HDFS中的各个DataNode之间平衡数据？

Hadoop provides the balancer to redistribute the data.

Hadoop提供了用于重新分配数据的平衡器。

Brief introduction to balancer in Hadoop: balancer.

Hadoop中的balancer简介： balancer 。

The design and discussion of balancer in Hadoop: HADOOP-1652.

Hadoop中的均衡器设计和讨论： HADOOP-1652 。

The command to start balancer: hadoop balancer as the administrator.

启动 balancer的命令： hadoop balancer以管理员身份。

Answered by Eric Z Ma.

埃里克·马（Eric Z Ma）回答。

翻译自: https://www.systutorials.com/how-to-balance-datanode-storage-in-hdfs/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cuma2369

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop系列之HDFS 磁盘均衡(17)

01-26

6万+

HDFS 磁盘均衡 HDFS 磁盘均衡器 HDFS 提供了一个用于 Datanode 内多磁盘之间的数据均衡工具，即 Diskbalancer （磁盘均衡器），它把数据均衡的分发到一个 Datanode 下的多个磁盘。Diskbalancer 和 Hadoop 2.0 版本以前提供的 Balancer 不同，因为 Balancer 关心的是不同 Datanode 之间的数据均衡，Datanode 内多个磁盘的数据均衡它是不起作用的。 HDFS 由于以下原因，在把数据存储到 Datanode 多个磁盘的时候，

HDFS中DataNode的目录结构

weixin_43874875的博客

11-07

1053

具体解释：（1）storageID：存储id号（2）clusterID集群id，全局唯一（3）cTime属性标记了datanode存储系统的创建时间，对于刚刚格式化的存储系统，这个属性为0；但是在文件系统升级之后，该值会更新到新的时间戳。（4）datanodeUuid：datanode的唯一识别码（5）storageType：存储类型（6）layoutVersion是一个负整数。通常只...

参与评论您还未登录，请先登录后发表或查看评论

HDFS节点内数据平衡

happy19870612's blog

11-16

7962

Hadoop集群使用久了，我们会发现一个问题，各个DataNode数据不平衡了，多的达到70-80%，少的达到10-20%。面对这种场景，我们一般使用HDFS自带的Blancer工具对其数据进行平衡。也就是他只能保证每一个节点的数据大小均衡。但是有的时候，你会发现节点数据平衡了但是DataNode内部各个磁盘块上的数据不平衡了，这个Blancer就干不了这活儿。比如某一个Dat

HDFS负载均衡1-Data Node负载均衡

分布式存储学习

12-15

1058

Hadoop 分布式文件系统（Hadoop Distributed File System），简称 HDFS，被设计成适合运行在通用硬件上的分布式文件系统。GFS是谷歌一篇论文上所阐述的一个分布式文件系统。两者均将数据分为一个分片（chunk/block/partition），以及对应会有多个副本，分别分布在不同的Node节点上，从而能够满足高可用以及稳定性的要求。但是对于一个Node以及其具体所包含的某个disk上，如果一个disk写满了，上面的所有副本都是只读状态，进而无论这个分片其它副本是否可写，

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结_datanode balance(1)

最新发布

2401_84185441的博客

05-08

556

hdfs 需要存写大量文件，有时磁盘会成为整个集群的性能瓶颈，所以需要优化 hdfs 存取速度，将数据目录配置多磁盘，既可以提高并发存取的速度，还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM）

【HDFS实战】HDFS上的数据均衡

coding and writing

06-28

3348

HDFS上的数据均衡

12_尚硅谷大数据之HDFS_DataNode1

08-03

每个DataNode存储一部分Block（数据块），Block是HDFS的基本存储单元。DataNode的主要工作流程如下： 1. DataNode启动时会向NameNode注册，提供自己的存储能力信息。 2. 注册成功后，DataNode每小时上报一次所有...

HDFS 之 DataNode 详解

程序员学习圈

06-29

2918

DataNode工作机制1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个...

HDFS的 datanode节点修改副本存储指定节点存储的策略源码

sinat_28371057的博客

01-31

927

dfs.datanode.data.dir 配置数据存放的路径在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的dfs.datanode.data.dir参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的固态硬盘）上。注意：如下的存储配置里面使用..

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结

赵英超的博客

02-04

2048

HDFS DataNode节点内磁盘平衡

AdamShyly的博客

04-15

220

小数据运维之HDFS节点内平衡 - 墨天轮 (modb.pro)

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结_datanode balance

2401_84150530的博客

04-16

1088

如何对HDFS进行节点内(磁盘间)数据平衡

h952520296的博客

04-19

1690

特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。2.使用系统的hdfs.keytab进行认证，一般在/var/run/cloudera-scm-agent/process/1952-hdfs-JOURNALNODE 目录下等，或者自己生成，首选CDH系统自动生成的keytab，自己生成的不一定能用。2.挂载数据盘的磁盘间数据不均衡。

云小课｜MRS基础操作之配置DataNode容量均衡

华为云官方博客

02-15

730

当HDFS集群出现DataNode节点间磁盘利用率不平衡时，会导致MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率等问题。因此管理员需要定期检查并保持DataNode数据平衡。

hadoop datanode 磁盘数据平衡

u010027484的博客

07-11

2216

Hadoop DataNode Disk Balance Hadoop 支持 DataNode 间数据平衡，但是对于单个DataNode内的各磁盘平衡，则需要人工进行数据迁移。 1.确认各数据磁盘可用空间，以确定需要迁移的数据量及迁移路径 df -h 2.停止datanode cd /opt/hadoop; ./bin/hadoop-daemon.sh stop datanode

DataNode磁盘平衡器[代码分享]

weixin_34393428的博客

12-17

143

为什么80%的码农都做不了架构师？>>> ...

Hadoop集群datanode磁盘不均衡的解决方案

weixin_34203832的博客

09-22

786

2019独角兽企业重金招聘Python工程师标准>>> ...

hadoop中datanode节点不同的dfs.data.dir之间数据均衡问题

szh1124的专栏

10-24

953

问题：集群中的存储数据增大，导致datanode的空间都快占满了（以前的dfs.data.dir=/data/hdfs/dfs/data），机器的硬盘监控程序不停的报警。给每台机器加了一倍的存储硬盘(新的dfs.data.dir=/data/hdfs/dfs/data，/data/hdfs/dfs/data2 新的硬盘挂载在/data/hdfs/dfs/da

CDH中hdfs平衡datanode节点数据

hainansanyawang的博客

03-20

3411

CDH版HDFS Block Balancer方法命令： sudo -u hdfs hdfs balancer 默认会检查每个datanode的磁盘使用情况，对磁盘使用超过整个集群10%的datanode移动block到其他datanode达到均衡作用。指定阀值，该阀值是datanode节点的磁盘使用占整个集群的百分比。 sudo -u hdfs hdfs bala...

大数据中HDFS如何存数据？

05-10

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一种分布式文件系统，它的设计目标是能够在廉价的硬件上存储大量数据，并且保证高可靠性和高性能。 HDFS将大文件划分为若干个数据块（默认大小为64M），并将这些数据块分散存储在不同的节点上，这些节点可以是集群中的任何一台机器。每个数据块会有多个备份（默认为3份），这些备份会存储在不同的节点上，以保证数据的可靠性。HDFS会通过数据块的复制策略，将数据块尽可能地分散存储在不同的机器上，以保证数据的可靠性和高效性。当某个节点失效时，HDFS会自动将该节点上的数据块复制到其他节点上，保证数据的可靠性。在HDFS中，数据的存储是通过NameNode和DataNode来实现的。NameNode是整个HDFS的管理节点，它负责管理文件系统的命名空间、文件元数据信息、数据块的分布情况等。DataNode是存储数据块的节点，它负责存储数据块、向NameNode汇报数据块的存储信息等。在HDFS中，当一个客户端需要存储一个文件时，它会将文件切分成若干个数据块，并将这些数据块分散存储在不同的DataNode上。同时，客户端会向NameNode发送一个请求，将文件的元数据信息存储在NameNode上。当客户端需要读取文件时，它会向NameNode发送一个请求，获取文件的元数据信息，然后通过DataNode获取数据块，并将这些数据块组成完整的文件返回给客户端。