如何使用Apache Hadoop中的新HDFS数据节点内磁盘平衡器

最新推荐文章于 2024-02-04 13:51:00 发布

流一恩典

最新推荐文章于 2024-02-04 13:51:00 发布

阅读量909

点赞数 1

分类专栏： hadoop篇

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/czz1141979570/article/details/89142277

版权

本文介绍了如何使用Hadoop的HDFS磁盘平衡器来解决数据节点上的磁盘不平衡问题，该工具允许在线跨磁盘移动数据，提高集群的存储效率和I/O性能。内容包括磁盘平衡器的工作原理、配置、执行步骤以及其在CDH 5.8.2及更高版本中的应用。

摘要由CSDN通过智能技术生成

> HDFS现在包括（在CDH 5.8.2及更高版本中提供）一种用于跨节点移动数据的综合存储容量管理方法。

在hdfs中，datanode将数据块分散到本地文件系统目录中，可以使用hdfs-site.xml中的dfs.datanode.data.dir指定该目录。在典型的安装中，每个目录（在HDFS术语中称为卷）位于不同的设备上（例如，在单独的HDD和SSD上）。在将新块写入HDFS时，datanode使用卷选择策略来选择块的磁盘。目前支持两种这样的策略类型：循环或可用空间（HDFS-1804）。

简而言之，如图1所示，循环策略将新块平均分布在可用磁盘上，而可用空间策略则优先将数据写入可用空间最大的磁盘（按百分比）。

默认情况下，datanode使用基于循环的策略来写入新块。但是，在长时间运行的集群中，由于HDFS中的大量文件删除或通过磁盘热交换功能添加新的数据节点磁盘等事件，数据节点仍然有可能创建显著不平衡的卷。即使使用基于空间的可用卷选择策略，卷不平衡仍然会导致磁盘I/O效率降低：例如，在此期间，每次新写入都将转到新添加的空磁盘，而其他磁盘处于空闲状态，从而在新磁盘上造成瓶颈。

最近，ApacheHadoop社区开发了服务器离线脚本（如inhdf-1312、dev@mail list和github所讨论的那样），以缓解数据不平衡问题。但是，由于在HDFS代码

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。