hadoop中datanode节点失效处理机制

初始状态

fsck健康检查

参数说明:

Status:代表这次hdfs上block检测的结果

Total size : hdfs集群存储大小,不包括复本大小。如:4568974435B/1024/1024/1024 = 4.26GB

Total dirs:代表检测的目录下总共有多少个目录 

Total blocks (validated) : 总共的块数量,不包括复本。212 * 21551766B / 1024 / 1024 = 4.26GB

Minimally replicated blocks:代表满足最小拷贝的block块数

Over-replicated blocks:指的是副本数大于指定副本数的block数量

Under-replicated blocks:指的是副本数小于指定副本数的block数量

Mis-replicated blocks:指丢失的block块数量

Default replication factor: 3 指默认的副本数是3份(自身一份,需要拷贝两份)

Corrupt blocks : 坏块的数量,这个值不为0,则说明当前集群有不可恢复的块,即数据有丢失了

Missing replicas:丢失的副本数

Number of data-nodes:有多少个节点

Number of racks:有多少个机架

Webhdfs存储量

总结:fsck出来的结果中文件大小是不包括副本的大小,集群总的大小 = 副本大小 * 副本数量 , 即:4.26G * 3 = 12.7GB ,两个结果基本相同。

datanode可用节点

可用节点共有5个,如下图。

验证场景

  • 强制停掉slave25 和 slave26 两个节点。
  • 检查hdfs集群块存储状态,以及是否丢数据。
  • 删除slave25 和 slave26的数据后,验证是否可恢复。删除slave25和slave26两个节点的数据;启动slave25和slave26的datanode节点,检查数据恢复情况。
  • 重新检查块数据健康情况是否可以自动恢复。

实际验证

  • 通过./sbin/hadoop-daemon.sh stop datanode后,webhdfs中没有立刻将datanode设置为无效,需要等待一定的时间间隔。

HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:timeout  = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval,默认的heartbeat.recheck.interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。即:超时时长 = 10次失败后进行两次间隔查询 + 失败重试10次。

在节点slave25和slave26节点停止后,数据块自动在剩余节点之间进行的平衡,保证每个数据块的最小副本数量,整个HDFS系统的监控情况依旧为Health,如下两个图。

  • 删除slave25和slave26两个节点的中已经存储的数据,并启动两个datanode节点,节点正常。

验证结果

  • hdfs中的datanode节点与namenode节点之间保持心跳连接,并且具备失败重试机制,避免因为网络抖动等原因造成无谓数据转移。
  • 在datanode失效后,namenode为了保证块的最小副本数量,会在其他可用datanode节点间进行数据拷贝。
  • 原有节点恢复后,可能会导致块副本数量超过最大副本数量。处理方案:删除节点的数据,由namenode在剩余节点间创建副本。
  • 新节点加入或原有节点恢复后,可能会导致节点的数据量不均衡。处理方式:使用start-balancer.sh。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ant-666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值