hadoop中datanode节点失效处理机制

最新推荐文章于 2023-09-06 23:08:37 发布

ant-666

最新推荐文章于 2023-09-06 23:08:37 发布

阅读量2k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/lp895876294/article/details/114240289

版权

hadoop 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

初始状态

fsck健康检查

参数说明：

Status：代表这次hdfs上block检测的结果

Total size ： hdfs集群存储大小，不包括复本大小。如：4568974435B/1024/1024/1024 = 4.26GB

Total dirs：代表检测的目录下总共有多少个目录

Total blocks (validated) : 总共的块数量，不包括复本。212 * 21551766B / 1024 / 1024 = 4.26GB

Minimally replicated blocks：代表满足最小拷贝的block块数

Over-replicated blocks：指的是副本数大于指定副本数的block数量

Under-replicated blocks：指的是副本数小于指定副本数的block数量

Mis-replicated blocks：指丢失的block块数量

Default replication factor: 3 指默认的副本数是3份（自身一份，需要拷贝两份）

Corrupt blocks ：坏块的数量，这个值不为0，则说明当前集群有不可恢复的块，即数据有丢失了

Missing replicas：丢失的副本数

Number of data-nodes：有多少个节点

Number of racks：有多少个机架

Webhdfs存储量

总结：fsck出来的结果中文件大小是不包括副本的大小，集群总的大小 = 副本大小 * 副本数量，即：4.26G * 3 = 12.7GB ，两个结果基本相同。

datanode可用节点

可用节点共有5个，如下图。

验证场景

强制停掉slave25 和 slave26 两个节点。
检查hdfs集群块存储状态，以及是否丢数据。
删除slave25 和 slave26的数据后，验证是否可恢复。删除slave25和slave26两个节点的数据；启动slave25和slave26的datanode节点，检查数据恢复情况。
重新检查块数据健康情况是否可以自动恢复。

实际验证

通过./sbin/hadoop-daemon.sh stop datanode后，webhdfs中没有立刻将datanode设置为无效，需要等待一定的时间间隔。

HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval，默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。即：超时时长 = 10次失败后进行两次间隔查询 + 失败重试10次。