初始状态
fsck健康检查
参数说明:
Status:代表这次hdfs上block检测的结果
Total size : hdfs集群存储大小,不包括复本大小。如:4568974435B/1024/1024/1024 = 4.26GB
Total dirs:代表检测的目录下总共有多少个目录
Total blocks (validated) : 总共的块数量,不包括复本。212 * 21551766B / 1024 / 1024 = 4.26GB
Minimally replicated blocks:代表满足最小拷贝的block块数
Over-replicated blocks:指的是副本数大于指定副本数的block数量
Under-replicated blocks:指的是副本数小于指定副本数的block数量
Mis-replicated blocks:指丢失的block块数量
Default replication factor: 3 指默认的副本数是3份(自身一份,需要拷贝两份)
Corrupt blocks : 坏块的数量,这个值不为0,则说明当前集群有不可恢复的块,即数据有丢失了
Missing replicas:丢失的副本数
Number of data-nodes:有多少个节点
Number of racks:有多少个机架
Webhdfs存储量
总结:fsck出来的结果中文件大小是不包括副本的大小,集群总的大小 = 副本大小 * 副本数量 , 即:4.26G * 3 = 12.7GB ,两个结果基本相同。
datanode可用节点
可用节点共有5个,如下图。
验证场景
- 强制停掉slave25 和 slave26 两个节点。
- 检查hdfs集群块存储状态,以及是否丢数据。
- 删除slave25 和 slave26的数据后,验证是否可恢复。删除slave25和slave26两个节点的数据;启动slave25和slave26的datanode节点,检查数据恢复情况。
- 重新检查块数据健康情况是否可以自动恢复。
实际验证
- 通过./sbin/hadoop-daemon.sh stop datanode后,webhdfs中没有立刻将datanode设置为无效,需要等待一定的时间间隔。
HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval,默认的heartbeat.recheck.interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。即:超时时长 = 10次失败后进行两次间隔查询 + 失败重试10次。
在节点slave25和slave26节点停止后,数据块自动在剩余节点之间进行的平衡,保证每个数据块的最小副本数量,整个HDFS系统的监控情况依旧为Health,如下两个图。
- 删除slave25和slave26两个节点的中已经存储的数据,并启动两个datanode节点,节点正常。
验证结果
- hdfs中的datanode节点与namenode节点之间保持心跳连接,并且具备失败重试机制,避免因为网络抖动等原因造成无谓数据转移。
- 在datanode失效后,namenode为了保证块的最小副本数量,会在其他可用datanode节点间进行数据拷贝。
- 原有节点恢复后,可能会导致块副本数量超过最大副本数量。处理方案:删除节点的数据,由namenode在剩余节点间创建副本。
- 新节点加入或原有节点恢复后,可能会导致节点的数据量不均衡。处理方式:使用start-balancer.sh。